实时存储综合案例（二）

实时存储综合案例（二）

知识点01：课程回顾

Flume功能和应用场景

功能：实现实时数据流的采集
场景：实时采集文件或者监听网络端口

Flume的开发规则和常用组件

规则：开发一个配置文件：Agent、Source、Channel、Sink，运行配置文件：flume-ng agent -c、-f、-n
常用：三大基本组件
- Source：采集数据：Taildir
- Channel：缓存数据：File、Mem
- Sink：发送数据：HDFS、Kafka
流程：先分析选择哪种组件，开发配置文件【官网】、运行【后台】

Znyoung大约 22 分钟

实时存储综合案例（一）

实时存储综合案例（一）

文档资料

01：课程回顾

Phoenix的基础语法
- 目标：熟悉DDL、DML、DQL操作
Phoenix构建Hbase二级索引
- 目标：掌握二级索引设计以及使用Phoenix实现二级索引自动化构建和维护
- 分类
  - 全局索引：最简单二级索引，基于索引字段和原表rowkey构建索引表的rowkey，先查索引表，再查原表
    - 优点：简单，加快读取数据的性能，查询结果字段不在索引表，默认不走索引
    - 缺点：阻塞写入请求，先写索引表，然后再写原表，对写入影响相对比较大
    - 场景：读的性能要求比较高，写的性能要求不是很高
  - 覆盖索引：基于全局索引设计之上，将一些经常被查询字段放入索引表中，优先直接从索引表返回
    - 优点：不用再查询原表，直接从索引表返回
    - 缺点：索引表的数据量会增加，如果数据不在索引表，不走索引
    - 场景：与全局索引一致，一般建覆盖索引多一点
  - 本地索引：将索引数据直接存储在原表的一个列族中，将索引数据与对应原始数据写入同一个region中
    - 优点：降低了对写数据的影响
    - 缺点：查询时必须加载所有索引数据，读性能提升没有全局索引更好
    - 场景：希望提升读的性能，但是不希望对写产生很大的影响

Znyoung大约 16 分钟