跳至主要內容
SQL加强

SQL强化

SQL执行顺序

--举例:
select 
       a.sex,
       b.city,
       count(1) as cnt,
       sum(salary) as sum1
from table1 a
join table2 b on a.id=b.id
where a.name=b.name
group by a.sex,b.city
having cnt>=2
order by a.sex,b.city
limit 10
--或者是
select distinct
       a.sex,
       b.city,
       a.age
from table1 a
join table2 b on a.id=b.id
where a.name=b.name
order by a.sex,b.city
limit 10

Znyoung大约 39 分钟大数据面试SQL
Hive与Spark问题解答

hive高频问题和解答

一、什么是数据仓库:

  • 是存储数据的仓库,
  • 不生产数据,也不消费数据。
  • 有4大特征:1-面向主题,2-集成性,3-非易失性,4-时变性

二、建模的方法

  • 有【三范式建模】和【维度建模】,大数据数仓用维度建模。
    • 三范式建模:尽量不冗余,表数量较多。更适合业务系统, OLTP
    • 维度建模: 形成少量宽表,宽表内允许大量冗余,更适合离线数仓,OLAP

Znyoung大约 19 分钟大数据面试HiveSpark
Flink_5

day7-FlinkSQL

今日目标

SQL 语法

知识点22:【理解】DDL:Create 子句

CREATE 语句用于向当前或指定的 Catalog 中注册库、表、视图或函数。注册后的库、表、视图和函数可以在 SQL 查询中使用。
目前 Flink SQL 支持下列 CREATE 语句:

  • CREATE TABLE
  • CREATE DATABASE
  • CREATE VIEW
  • CREATE FUNCTION

Znyoung大约 80 分钟大数据Flink
Flink_4

day6-Flink基础&FlinkSQL

今日目标

  • 掌握SQL的水印操作
  • 掌握SQL的容错机制
  • 了解SQL的时区问题
  • 掌握SQL的语法

整体概述

SQL 的水印操作(Watermark)

知识点14:【理解】为什么要有 WaterMark?

  • 当 flink 以 EventTime 模式处理流数据时,它会根据数据里的时间戳来处理基于时间的算子。但是由于网络、分布式等原因,会导致数据乱序的情况。如下图所示:
  • 假设在一个5秒的Tumble窗口,有一个EventTime是 11秒的数据,在第16秒时候到来了。图示第11秒的数据,在16秒到来了,如下图:该如何处理迟到数据

Znyoung大约 58 分钟大数据Flink
Flink_3
  • 掌握Flink的三种时间属性
  • 掌握SQL的窗口操作
  • 掌握SQL的水印操作
  • 掌握SQL的容错机制
  • 了解SQL的时区问题

FlinkSQL整体概述

SQL 的窗口操作(Window)

知识点08:【理解】窗口的概述

在流处理应用中,数据是连续不断的,因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次,但是有时我们需要做一些聚合类的处理,例如:在过去的1分钟内有多少用户点击了我们的网页。在这种情况下,我们必须定义一个窗口,用来收集最近一分钟内的数据,并对这个窗口内的数据进行计算。
Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,在上面实现了流处理和批处理。而窗口(window)就是从 Streaming 到 Batch 的一个桥梁。


Znyoung大约 47 分钟大数据Flink
Flink_2

day4-Flink基础

今日目标

  • 【理解】- Flink SQL 数据类型
  • 【理解】- Flink SQL 动态表 & 连续查询
  • 【掌握】- Flink四大基石之时间
  • 【掌握】- Flink四大基石之window窗口

FlinkSQL基础之四大基石

知识点03:【掌握】SQL 数据类型

在介绍完一些基本概念之后,我们来认识一下,Flink SQL 中的数据类型。Flink SQL 内置了很多常见的数据类型,并且也为用户提供了自定义数据类型的能力。总共包含 3 部分:


Znyoung大约 46 分钟大数据Flink
Flink_1

Chapter1_Flink基础

本章目标

  • 【了解】- Flink基础的课程介绍
  • 【理解】- Flink的批处理和流处理的概念
  • 【了解】- Flink概述
  • 【理解】- Flink框架如何进行搭建和部署的
  • 【理解】- Flink的运行时架构
  • 【会用】- Flink的入门案例(DataStream API)流处理应用

课程介绍

批处理与流处理

知识点01:【了解】批处理和实时流处理的区别


Znyoung大约 35 分钟大数据Flink
保费因子表计算

day08_保险项目课程笔记

今日内容:

  • 完成保费因子表计算操作

1. 计算保费相关指标

1.1 计算保费参数因子

  • 需求一:  根据性别, 投保年龄, 缴费期 以及保单年度来统计其中23个保费参数因子指标
image-20221015205522511.png
image-20221015205522511.png

Znyoung大约 63 分钟大数据保险项目指标计算
指标计算

day06_保险项目课程笔记

今日内容:

  • 1- 了解寿险定价的规则(了解)
  • 2- 扩展知识点(掌握)
  • 3- 计算相关的指标(掌握)

1. 了解寿险定价规则

1.1 定价精算控制循环流程

	整个保险产品, 在定价的时候, 并不是一次性成型的, 精算师需要将各种情况全部的考虑进入, 然后核算出一个保费的结果, 然后根据保费结果进行利润测算, 如果没有达到利润目标, 需要重新核算, 直到达到利润目标, 并且还要在市场上有一定的竞争力

Znyoung大约 13 分钟大数据保险项目指标计算
DolphinScheduler

day05_保险项目课程笔记

今日内容:

  • 1- DS的基本介绍(了解 知道是什么软件)
  • 2- 安装DS (操作)
  • 3- DS的集群的架构介绍 (知道)
  • 4- DS的基本使用 (高级管理操作 了解  如何基于DS实现调度 掌握)
  • 5- 基于DS完成定时数据采集工作 (操作)

1- DS基本介绍

	Apache DolphinScheduler是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,类似于oozie

	官网网站: [https://dolphinscheduler.apache.org/](https://dolphinscheduler.apache.org/)

Znyoung大约 7 分钟大数据保险项目DolphinScheduler
2
3
4
5