Day09_DM层建设实战
知识点01:课程内容大纲与学习目标
#课程内容大纲
1、DM层构建
销售主题统计宽表构建
商品主题统计宽表构建
用户主题统计宽表构建
#学习目标
掌握DM层在本项目分层中所处的地位与功能
掌握DM层构建实现
大约 27 分钟
#课程内容大纲
1、DM层构建
销售主题统计宽表构建
商品主题统计宽表构建
用户主题统计宽表构建
#学习目标
掌握DM层在本项目分层中所处的地位与功能
掌握DM层构建实现
#课程内容大纲
1、DWS层构建
商品主题统计宽表的实现
核心:表关系梳理、字段抽取、结果合并
用户主题统计宽表的实现思路
#学习目标
掌握主题需求的分析
掌握表关系梳理与字段抽取
#课程内容大纲
1、聚合函数增强
grouping sets
cube、rollup
grouping
功能:针对分组聚合操作进行优化。
2、DWS层搭建
目标与需求
销售主题统计宽表--简易模型分析 知识点:grouping sets
销售主题统计宽表--复杂模型分析 知识点:row_number去重
新零售项目销售主题统计宽表的实现
#学习目标
掌握grouping sets等函数的功能、应用
掌握使用row_number函数进行去重操作
掌握数仓DWS层功能
理解销售主题宽表的实现
DWB作用:维度退化操作(降维)
指的将各个维度表或者事实表的核心字段全部汇聚成一个表操作, 形成一个宽表, 这样在后续进行统计分析的时候, 只需要操作合并后大的宽表数据即可
对于当前项目, 此处汇聚操作, 跟我们的主题没有直接关系的, 更加是基于业务模块, 形成业务模块的一些宽表
但是对于其他的项目 可能从一开始就是直接针对主题进行处理, 所以在一些其他的项目中可能会直接基于主题形成主题相关的宽表
#课程内容大纲
1、项目业务表结构梳理、分析主题梳理
2、DataGrip工具的使用
满足日常开发、提高效率
3、ODS层构建
数据导入的4种方式及实现
4、DWD层构建
渐变维--SCD2--拉链表
背景、设计、实现
例1:拉链导入
例2:全量覆盖导入
例3:增量导入
#学习目标
熟悉项目业务表结构、分析主题
掌握DataGrip工具的使用
掌握ODS层数据导入的方式、sqoop的使用
熟练掌握拉链表的背景、设计、实现
掌握DWD层数据导入
#课程内容大纲
1、大数据分析交互平台Hue
介绍、功能、架构原理
Hue的使用(操作HDFS Hive)
2、数据迁移同步工具Sqoop
介绍、工作机制、原理
数据导入
全量数据
增量数据
条件部分
Hive HCatalog API
数据导出
全量导出
增量导出
3、工作流调度工具Oozie
工作流概念
Oozie介绍、架构
Oozie工作流类型
Oozie使用案例
#学习目标
了解Hue的功能、使用
重点掌握Sqoop功能、使用
了解oozie的功能、使用(azkban,airflow)
#辅助工具是帮助我们在开发中更方便、更迅速的从事某些任务。同类可替代的产品众多。
#希望大家能够具备一种意识:当我需要的时候 应该如何拾起来这个工具去帮我干活 如果换其他同类型产品如何快速切换使用
#课程内容大纲
大数据业务需求
企业中为什么开展大数据项目,为什么招人从事大数据开发
新零售项目背景
新零售的说法是什么意思
新零售项目业务流程
新零售项目业务需求
项目分析什么
大数据处理流程、技术选型、平台架构
一切围绕数据流转
常用软件功能介绍
大数据平台架构:Lambda、kappa
新零售项目架构
传统离线数仓架构 重要在于数仓的设计
“一招鲜,吃遍天”
大数据平台搭建方式
Cloudera Manager(CM)、CDH介绍
商业版大数据软件
新零售项目环境搭建
CM虚拟机导入
#学习目标
了解项目相关背景、业务流程、需求
(重点)掌握大数据处理流程、技术选型、平台架构
(重点)掌握理解新零售项目架构
了解大数据平台搭建方式
了解CM、CDH是什么
(重点)能够搭建使用项目的虚拟机环境