01:课程回顾
- BulkLoad
- 功能:将数据直接转换成HFile文件,直接放入表中,不经过内存
- 场景:短时间内大量数据写入Hbase表,离线应用中
- 流程:a-将数据生成HFILE文件【HfileOutputFormat2】 b-将HFile加载到表中
- SQL on Hbase
- 问题:a-Hbase不支持SQL,使用成本比较高,b-不知道Rowkey前缀,无法实现索引查询
- 需求:a-实现SQL on Hbase,b-构建二级索引
- Hive on Hbase
- 设计:使用Hbase来替代Hive表底层存储
- 本质:构建了一层映射关系,通过Hadoop中读写Hbase类来实现
- 优点:底层有计算引擎,SQL比较完善,实现对Hbase大数据量分析处理
- 缺点:不适合做即席查询,不支持构建二级索引
- 场景:离线场景中,利用Hbase提高数仓读写性能,实现分布式数据分析处理,或者使用SQL处理半结构化数据
- Phoenix on Hbase
- 设计:为了解决Hbase在使用过程中遇到的两个问题,专门为Hbase设计的工具
- 本质:底层直接基于Hbase原生API来构建,并且封装了大量的协处理器
- 优点:查询性能相对较快,数据存储读写功能比较强大,例如二级索引
- 缺点:SQL语法不是很完善,没有分布式计算引擎,不能实现非常复杂转换处理
- 场景:即席查询
大约 36 分钟