加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

刘晖数据工程专项培训

(2022-04-24 08:51:31)
标签:

刘晖

量子信息技术

区块链

数字经济

元宇宙

分类: 互联网

【课程收益】

1. 掌握数据仓库模型及相关知识;

2. 掌握数据存储方案的设计

3. 掌握数据处理过程的规划、设计、优化;

【课程特色】

1. 课上采用案例式教学,通俗易懂,课下一对一辅导强化训练,学与练交叉进行强化记忆,你所要做的就是认真听,勤于问,乐于练。

2. 清晰的知识结构,根据应用经验采用最优化授课模式。

3. 内容充沛、详略得当,前后呼应。

4. 讲师资历丰富,具有丰富的实践经验。

5. 知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪

【课程对象】相关人员

【课程时长】2天(6小时/天) 

【课程大纲】

第一部分:数据仓库

一、 数据仓库与数据挖掘概述

1. 数据仓库的发展与展望

2. 数据仓库的体系结构

3. 数据仓库的参照结构

4. 数据挖掘技术概述

5. 数据挖掘技术与工具

6. 数据挖掘的应用

二、 数据仓库开发模型

1. 数据仓库开发模型

2. 数据仓库概念模型

3. 数据仓库逻辑模型

4. 数据仓库的物理模型

5. 数据仓库的元数据模型

6. 数据仓库的粒度和聚集模型

三、 数据仓库开发应用过程

1. 数据仓库的规划

2. 数据仓库的概念模型设计

3. 数据仓库的逻辑模型设计

4. 数据仓库的物理模型设计

5. 数据仓库的实施

6. 数据仓库的应用、支持和增强

四、 OLAP 技术

1. OLAP 技术概念

2. OLAP 与多维分析

3. OLAP 的实施

4. 多维 OLAP 与关系 OLAP

5. OLAP 技术评价

五、 数据挖掘技术

1. 传统的统计分析类数据挖掘技术

2. 统计分析类工具

3. 统计分析类工具的应用

4. 统计分析类工具应用的问题

5. 知识挖掘系统的体系结构

6. 现代挖掘技术及应用

7. 知识发现工具与应用

8. 数据挖掘技术的发展

9. 数据挖掘的主要算法和模型

10. 聚集

11. 决策树

12. 神经网络

13. 关联分析

14. 序列分析

六、 数据预处理技术

1. 数据清理

2. 集成和变换

3. 规范化

4. 数据归约

5. 维归约

6. 数据压缩

7. 数值归约

七、 数据仓库应用与管理

1. 数据仓库用户

2. 数据仓库应用案例

3. 数据仓库的运行技术管理

4. 数据仓库的元数据管理

5. 数据仓库应用中的法律问题

6. 数据仓库的成本与效益分析

八、 数据仓库开发实例

1. 实例数据仓库的规划与分析

2. 数据仓库开发工具的应用

3. 数据仓库创建实例

4. 数据仓库事实表与多维数据集的建立

九、 数据仓库与挖掘应用实例

1. 数据仓库的数据加载与钻取

2. 数据挖掘模型的设计

3. 数据挖掘工具的应用

4. 数据仓库客户端界面的设计

第二部分:数据存储方案

一、 分布式存储系统概述

二、 大数据集(超大文件)存储

三、 海量小文件存储

四、 分布式存储技术发展新动向和趋势

五、 Google云计算体系,理解海量数据处理的方法

六、 Hadoop云计算项目,进一步研究云数据处理方法

七、 Windows Azure,理解平台即服务的本质

八、 Amazon云计算,讨论如何提供云服务

九、 实施云计算的关键点:安全策略

十、 当前数据中心如何向云计算环境转变? 

十一、 基础设施即服务(IaaS)关键实现技术

十二、 软件即服务(SaaS)关键实现技术

第三部分 数据处理过程的规划、设计、优化

一、 什么是数据工程师

二、 数据科学家和数据工程师的区别

三、 数据工程中的不同角色

四、 核心数据工程技能

课程1:大数据技术基础与应用

时间

内容

案例实践与练习

 

一、大数据时代背景

二、大数据业务应用场景

三、大数据在各行业最佳实践案例

案例讨论:大数据行业应用价值

 

一、大数据处理技术发展趋势

二、大数据主要存储技术介绍

三、大数据主要计算技术介绍

案例分析: 大数据与传统存储计算技术的关系

 

课程2:大数据基础理论与算法入门

 

时间

内容

 

1个主题:概率论与数理统计入门

1、  聊聊概率这件事

2、  什么是随机变量

3、  什么是概率分布

4、  什么是古典概型

5、  联合概率与边缘概率

6、  乘法与全概率公式

7、  贝叶斯公式介绍

8、  独立性与独立事件

9、 课堂实操:概率统计各种相关类型习题讲解,由浅入深探索概率统计在各种业务/项目上的应用。

 

2个主题:离散值的概率分布

1、 定义与分布律介绍

2、 离散型随机变量介绍

3、 伯努利、二项及泊松分布

4、 期望值及其计算方法

5、 方差与标准差介绍

6、 大数定理介绍

课堂实操:概率统计各种相关类型习题讲解,由浅入深探索概率统计

3个主题:SQL语法与应用实战

1、 SQL概述

2、 数据库基本操作

3、 数据类型和约束条件

4、 数据填充与数据导入

5、 查询操作符与子查询

6、 SQL查询函数介绍

7、 课堂实操:动手实际实现客户订单查询案例

 

4个主题:数据预处理

1.  数据审核

2.  数据筛选

3.  数据排序

4.  数据清洗

5.  数据集成

6.  数据变换

7.  数据归约

8. 课堂实操: 合并不同数据源数据、缺失值与异常值处理、数据标准化处理、Matplotlib绘图

5个主题:数据分析入门

1.  数据分析概述

2.  数据分析开发环境搭建

3.  数据分析学习技巧

4. 课堂实操: 量化炒股实例、python常用科学计算

 

6个主题:数据算法基础

1.  K最邻近算法

2. 朴素贝叶斯

3. 线性回归

4. 梯度下降

5. 最大似然估计

6. 多重回归模型

7. Logistic回归

8. Logistic函数介绍

9. 支持向量机

10. 课堂实操: 算法练习

 

7个主题:数据算法基础

1.  什么是决策树

2. 什么是熵

3. 神经网络的感知机

4. 前向传播神经网络

5. 什么是聚类

6. K均值算法

7. 自然语言处理

8. 推荐系统介绍

9. 课堂实操: 实现机器学习相关完整案例

 

课程3Hadoop生态系统

 

时间

内容

案例实践与练习

 

一、HDFS特征及读写文件

二、NameNode的考虑

三、HDFS安全概览

案例练习:HDFS基础命令

 

一、运用 Hadoop文件Shell

二、利用Flume 从外部源摄取数据

三、利用Sqoop从关系数据库摄取数据

案例练习:HDFS脚本及接口命令

 

一、MapReduce原理及特征

二、YARN2.0架构与原理

三、Zookeeper和YARN2.0关系

案例练习:MapReduce运行及调度

 

一、SQOOP原理及特征

二、SQOOP开发应用

三、SQOOP和Hadoop关系

案例练习:SQOOP开发

 

一、zookeeper原理及特征

二、zookeeper架构与应用

三、Zookeeper和Hadoop关系

案例练习:Zookeeper集群管理命令

 

一、HBase原理及特征

二、HBase and RDBMS

三、HBase Shell

案例练习:HBase Shell命令

 

一、创建表

二、HBase 的ROWKEY设计

三、Hbase的优化设计

案例练习:HBase 优化设计

 

一、Hive模式和数据存储

二、Hive与传统数据库的比较

三、Hive应用案例

案例练习:Hive模式及管理命令

 

一、HQL基础DDL编程

二、HQL基础DML编程

三、HQL实现关联操作

案例练习:Hive 基础开发

 

一、Hive管理的各中表与模型应用

二、装载数据进入Hive

三、Hive维度模型开发应用

案例练习:Hive模型开发

 

一、Flume装载数据进入Hive

二、SQOOP装载数据进入Hive

三、Hive开发与Hadoop关系

案例练习:Hive接口开发

 

一、Scala基础知识

二、Scala常用集合

三、Scala应用场景

案例练习:Scala基础开发

 

一、函数对象

二、编程实例

三、Scala高级开发应用

案例练习:Scala开发应用

 

课程4Spark生态系统

 

时间

内容

案例实践与练习

 

一、Spark发展历史及简介

二、Spark业务应用场景

三、Spark与Hadoop系统关系

案例讨论:Spark与Hadoop系统关系

 

一、Spark原理及特征

二、Spark架构及组件应用场景

三、Spark接口及应用场景

案例讨论:Spark接口及应用场景

 

一、RDD基础

二、转换操作与执行操作

三、共享变量

案例练习:RDD基础开发操作

 

一、Spark计算框架原理及特征

二、Spark架构与应用

三、Spark之宽窄依赖和DAG调度

案例练习:Spark计算模型及运行日志查看

 

一、Spark资源调度原理及特征

二、Spark资源调度架构及应用

三、Spark资源调度基于Hadoop

案例练习:Spark调度命令

 

一、Spark生态系统接口介绍

二、Spark生态系统接口与Hadoop

三、Spark生态系统接口与大数据分析

案例练习:Spark接口开发

 

一、Spark SQL原理与架构

二、Hive SQL与Spark SQL

三、Spark SQL开发应用

案例练习:Spark SQL基础开发

 

一、Spark SQL与Hive

二、Spark SQL与模型构建

三、Spark SQL与数据挖掘分析

案例练习:Spark SQL模型开发

 

一、Spark Streaming基本原理

二、Spark Streaming开发基础

三、Spark Streaming开发应用

案例练习:Spark Streaming开发

 

一、Spark ML读取数据

二、Spark ML对数据进行探索

三、Spark ML训练模型

案例练习:Spark Mllib开发

 

一、Spark ML组装任务

二、Spark ML评估、优化模型

三、Spark Mllib开发

案例练习:Spark Mllib开发

 

一、Spark GraphX 的核心代码剖析

二、Spark GraphX 命令方式操作

三、Spark GraphX 的客户端 API 介绍

案例练习:Spark Graphx开发

 

课程5:大数据流式处理技术入门

时间

内容

案例实践与练习

 

一、大数据流式处理技术原理与架构

二、大数据实时计算应用场景

三、大数据实时计算与Hadoop系统

案例讨论:大数据实时计算与Hadoop系统

 

一、大数据流式处理组件介绍

二、SparkStreaming与各流计算组件特点

三、大数据流式处理技术选型实践

案例讨论:大数据流式处理技术选型

 

一、FLUME基本原理

二、FLUME架构部署

三、FLUME管理运维开发命令

案例练习:FLUME开发基础

 

一、FLUME读取数据

二、FLUME处理数据

三、FLUME写入数据

案例练习:FLUME开发应用

 

一、Kafka基本原理

二、Kafka架构部署

三、Kafka管理运维开发命令

案例练习:Kafka开发基础

 

一、Kafka读取数据

二、Kafka处理数据

三、Kafka写入数据

案例练习:Kafka开发应用

 

一、ELK各组件特点

二、ELK架构优势

三、ELK开发应用场景

案例练习:ELK开发基础

 

一、ELK部署配置

二、ELK管理运维

三、ELK开发应用

案例练习:ELK开发应用

 

一、Flink原理

二、Flink架构优势

三、Flink开发应用场景

案例练习:Flink开发基础

 

一、Flink部署配置

二、Flink管理运维

三、Flink开发应用

案例练习:Flink开发应用

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有