跳至主要內容
实时存储综合案例(二)

实时存储综合案例(二)

知识点01:课程回顾

  1. Flume功能和应用场景
  • 功能:实现实时数据流的采集
  • 场景:实时采集文件或者监听网络端口
  1. Flume的开发规则和常用组件
  • 规则:开发一个配置文件:Agent、Source、Channel、Sink,运行配置文件:flume-ng agent -c、-f、-n
  • 常用:三大基本组件
    • Source:采集数据:Taildir
    • Channel:缓存数据:File、Mem
    • Sink:发送数据:HDFS、Kafka
  • 流程:先分析选择哪种组件,开发配置文件【官网】、运行【后台】

Znyoung大约 22 分钟大数据PhoenixFlume
实时存储综合案例(一)

实时存储综合案例(一)

文档资料

01:课程回顾

  1. Phoenix的基础语法
    • 目标:熟悉DDL、DML、DQL操作
  2. Phoenix构建Hbase二级索引
    • 目标:掌握二级索引设计以及使用Phoenix实现二级索引自动化构建和维护
    • 分类
      • 全局索引:最简单二级索引,基于索引字段和原表rowkey构建索引表的rowkey,先查索引表,再查原表
        • 优点:简单,加快读取数据的性能,查询结果字段不在索引表,默认不走索引
        • 缺点:阻塞写入请求,先写索引表,然后再写原表,对写入影响相对比较大
        • 场景:读的性能要求比较高,写的性能要求不是很高
      • 覆盖索引:基于全局索引设计之上,将一些经常被查询字段放入索引表中,优先直接从索引表返回
        • 优点:不用再查询原表,直接从索引表返回
        • 缺点:索引表的数据量会增加,如果数据不在索引表,不走索引
        • 场景:与全局索引一致,一般建覆盖索引多一点
      • 本地索引:将索引数据直接存储在原表的一个列族中,将索引数据与对应原始数据写入同一个region中
        • 优点:降低了对写数据的影响
        • 缺点:查询时必须加载所有索引数据,读性能提升没有全局索引更好
        • 场景:希望提升读的性能,但是不希望对写产生很大的影响

Znyoung大约 16 分钟大数据PhoenixFlume