大数据分类

SQL执行顺序

--举例：
select 
       a.sex,
       b.city,
       count(1) as cnt,
       sum(salary) as sum1
from table1 a
join table2 b on a.id=b.id
where a.name=b.name
group by a.sex,b.city
having cnt>=2
order by a.sex,b.city
limit 10
--或者是
select distinct
       a.sex,
       b.city,
       a.age
from table1 a
join table2 b on a.id=b.id
where a.name=b.name
order by a.sex,b.city
limit 10

Znyoung大约 39 分钟

Hive与Spark问题解答

一、什么是数据仓库：

是存储数据的仓库，
不生产数据，也不消费数据。
有4大特征：1-面向主题，2-集成性，3-非易失性，4-时变性

二、建模的方法

有【三范式建模】和【维度建模】，大数据数仓用维度建模。
- 三范式建模：尽量不冗余，表数量较多。更适合业务系统, OLTP
- 维度建模: 形成少量宽表，宽表内允许大量冗余，更适合离线数仓，OLAP

三、维度建模的模型：

星形模型：一个事实表，周围有多个维度表关联他，
星座模型：多个星形模型间共用维度表。
雪花模型：在星形模型的基础上，维度表又关联子维度表。

Znyoung大约 19 分钟

Flink_5

今日目标

SQL 语法

知识点22：【理解】DDL：Create 子句

CREATE 语句用于向当前或指定的 Catalog 中注册库、表、视图或函数。注册后的库、表、视图和函数可以在 SQL 查询中使用。目前 Flink SQL 支持下列 CREATE 语句：

CREATE TABLE
CREATE DATABASE
CREATE VIEW
CREATE FUNCTION

此节重点介绍建表，建数据库、视图和 UDF 会在后面的扩展章节进行介绍。

Znyoung大约 80 分钟

Flink_4

今日目标

掌握SQL的水印操作
掌握SQL的容错机制
了解SQL的时区问题
掌握SQL的语法

整体概述

SQL 的水印操作（Watermark）

知识点14：【理解】为什么要有 WaterMark？

当 flink 以 EventTime 模式处理流数据时，它会根据数据里的时间戳来处理基于时间的算子。但是由于网络、分布式等原因，会导致数据乱序的情况。如下图所示：
假设在一个5秒的Tumble窗口，有一个EventTime是 11秒的数据，在第16秒时候到来了。图示第11秒的数据，在16秒到来了，如下图：该如何处理迟到数据

Znyoung大约 58 分钟

Flink_3

掌握Flink的三种时间属性
掌握SQL的窗口操作
掌握SQL的水印操作
掌握SQL的容错机制
了解SQL的时区问题

FlinkSQL整体概述

SQL 的窗口操作（Window）

知识点08：【理解】窗口的概述

在流处理应用中，数据是连续不断的，因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次，但是有时我们需要做一些聚合类的处理，例如：在过去的1分钟内有多少用户点击了我们的网页。在这种情况下，我们必须定义一个窗口，用来收集最近一分钟内的数据，并对这个窗口内的数据进行计算。 Flink 认为 Batch 是 Streaming 的一个特例，所以 Flink 底层引擎是一个流式引擎，在上面实现了流处理和批处理。而窗口（window）就是从 Streaming 到 Batch 的一个桥梁。

Znyoung大约 47 分钟

Flink_2

今日目标

【理解】- Flink SQL 数据类型
【理解】- Flink SQL 动态表 & 连续查询
【掌握】- Flink四大基石之时间
【掌握】- Flink四大基石之window窗口

FlinkSQL基础之四大基石

知识点03：【掌握】SQL 数据类型

在介绍完一些基本概念之后，我们来认识一下，Flink SQL 中的数据类型。Flink SQL 内置了很多常见的数据类型，并且也为用户提供了自定义数据类型的能力。总共包含 3 部分：

Znyoung大约 46 分钟

Flink_1

本章目标

【了解】- Flink基础的课程介绍
【理解】- Flink的批处理和流处理的概念
【了解】- Flink概述
【理解】- Flink框架如何进行搭建和部署的
【理解】- Flink的运行时架构
【会用】- Flink的入门案例（DataStream API）流处理应用

课程介绍

批处理与流处理

知识点01：【了解】批处理和实时流处理的区别

批处理：对有界的数据进行处理就是批处理。

Znyoung大约 35 分钟

保费因子表计算

今日内容:

完成保费因子表计算操作

1. 计算保费相关指标

1.1 计算保费参数因子

需求一: 根据性别, 投保年龄, 缴费期以及保单年度来统计其中23个保费参数因子指标

Znyoung大约 63 分钟

指标计算

今日内容:

1- 了解寿险定价的规则(了解)
2- 扩展知识点(掌握)
3- 计算相关的指标(掌握)

1. 了解寿险定价规则

1.1 定价精算控制循环流程

	整个保险产品, 在定价的时候, 并不是一次性成型的, 精算师需要将各种情况全部的考虑进入, 然后核算出一个保费的结果, 然后根据保费结果进行利润测算, 如果没有达到利润目标, 需要重新核算, 直到达到利润目标, 并且还要在市场上有一定的竞争力

Znyoung大约 13 分钟

DolphinScheduler

今日内容:

1- DS的基本介绍(了解知道是什么软件)
2- 安装DS (操作)
3- DS的集群的架构介绍 (知道)
4- DS的基本使用 (高级管理操作了解如何基于DS实现调度掌握)
5- 基于DS完成定时数据采集工作 (操作)

1- DS基本介绍

	Apache DolphinScheduler是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,类似于oozie

	官网网站: [https://dolphinscheduler.apache.org/](https://dolphinscheduler.apache.org/)

Znyoung大约 7 分钟