大数据技术转型案例分析和最佳实践课程
课程天数:4天
课程介绍:
本课程首先从全局的视角,全面介绍了未来技术发展的趋势,以及大数据在整个技术架构中所处的位置。大数据的应用场景、设计思想,以及如何开发大数据的商业价值。
接着,课程由浅入深地介绍了Hadoop及其核心组件、Spark分布式计算框架与Scala语言。在此基础上,课程详细介绍建设大数据分析系统所需的各类系统及其开发实战,包括Sqoop, Hive, HBase, Kylin, ElasticSearch, Kafka, Flink以及Zookeeper。
课程最后,站在实战的角度,讲解了一个传统分析型系统的大数据转型过程:期初遇到哪些难题,解决的思路,以及整个转型的过程。
课程对象:
系统架构师、系统分析师、高级程序员、资深开发人员。
牵涉到海量数据处理的机构数据中心运行、规划、设计负责人。
云服务运营服务提供商规划负责人。
课程大纲:
1、大数据分析处理技术与商业价值
传统的软件架构
传统架构的设计局限
用户操作的三种类型
针对三种操作的优化策略
基于读写分离的架构设计
应用案例:淘宝网的架构设计
2、BI分析系统
OLTP vs. OLAP
面向主题的设计思想
数据仓库与BI分析系统
基于传统架构的BI系统建设
基于大数据的BI系统建设
应用案例:宏观经济分析系统与中美贸易摩擦的分析
3、大数据分析系统
1)解决大并发问题的方案→读写分离→NoSQL数据库
应用案例:12306网站的余票查询
2)解决海量数据收集与存储→收集日志文件→分布式文件系统
应用案例:用户推荐系统的建设
3)数据挖掘与机器学习→丰富的分析工具→组建数据分析团队
应用案例:企业征信平台
4、大数据时代思维的变革
不是随机样本,而是全体数据
不是精确性,而是混杂性
不是因果关系,而是相关关系
5、大数据时代的商业价值
从最不可能的地方获取数据
不再是数字化,而是数据化
数据的思维创新
大数据的商业应用
6、Hadoop技术框架
Hadoop的发展历程
Google的MapReduce
Google的Bigtable
Facebook的Cassandra
结论:Hadoop有效地降低了大数据门槛
7、Hadoop的设计理念
分布式并行计算
移动计算而不是移动数据
单点故障可容忍
8、Hadoop的生态圈
Hadoop核心组件:MapReduce,HDFS
Hadoop2.0
并行计算框架:Spark vs. MapReduce
在线查询:HBase与Impala
流式计算:Storm vs. Spark Stream
文本索引:Solr vs. ElasticSearch
Zookeeper与高可靠架构
Kafka分布式队列与日志收集
数据挖掘工具:Mahout、SparkR与Spark ML
9、Hadoop核心组件工作原理
HDFS的工作原理
MapReduce的工作原理
对工作原理的深度解读
10、MapReduce实战
实战:编写WordCount程序
实战:实现日志分析程序(Map only)
实战:实现数据关联查询
11、MapReduce的性能调优
使用分布式缓存
处理文件的读写
Combiner, partitioner与order
重复使用变量原则
12、Spark技术工作原理
Spark在Hadoop生态圈中的位置
Spark vs. MapReduce
Spark系统架构与RDD
案例:WordCount在Spark中的实现
13、Spark编程
对RDD编程
对名-值对RDD编程
数据装载与保存
SparkSQL
案例:运用Spark实现用户资料的采集与展现
14、Scala编程语言
Scala语言的编程特点
Scala编程基础
函数式编程
组合与继承
15、Spark的测试与发布
Spark-shell
本地运行调试
部署运行分布式系统
16、传统分析系统向大数据转型
传统分析系统向大数据转型
传统BI系统面临的难题
解决方案:
1)正确的技术选型降低门槛
2)演化式技术转型
案例:一次税务数据分析的演化式BI转型过程
1)项目背景介绍
2)革命式大数据转型的风险
3)渐进式大数据转型的思路
4)转型过程中的技术选型思路
17、第一阶段转型:ETL过程的大数据转型
1、大数据分析系统的整体架构
2、传统BI分析系统的设计套路
1)多维建模与数据仓库
2)数据治理与ETL过程
3、大数据分析系统的架构设计
1)大数据分析系统的技术选型
2)大数据分析系统的硬件配置
18、数据导入导出
sqoop工作原理
数据导入功能
实战:数据导入的实战应用
数据导出功能
实战:数据导出的实战应用
19、ETL过程
ETL的概念
Hive工作原理
Hive命令:创建表、导入数据、查询数据、分区
Hive+SparkSQL的开发实战
清洗、转换、集成、装载的应用案例
20、数据查询
离线分析、在线查询与近线分析
NoSQL数据库
HBase的工作原理
21、高可靠的架构设计
Zookeeper的运行原理
实战:Zookeeper实现高可靠的软件架构
22、第二阶段转型:建立ElasticSearch数据索引
数据索引
1、ElasticSearch的性能分析与特点
2、ElasticSearch的应用实战
1)建立ElasticSearch的Hive映射表
2)往ElasticSearch中写入数据
3)用REST接口进行海量数据秒级查询
3、ElasticSearch应用开发应注意的问题
23、第三阶段转型:引入Kylin大数据多维建模
数据分析
1、多维数据建模
2、Kylin的工作原理
3、Kylin的开发实战
1)Kylin的数据导入
2)建立数据模型
3)建立Cube
4)使用jdbc进行数据查询
4、Kylin的性能优化
1)Kylin的数据膨胀率
2)强制索引、层级索引与组合索引
3)Kylin的增量导入脚本
24、第四阶段转型:深度大数据应用
实时数据分析
1、批处理 vs. 实时分析
2、实时分析系统应用实战
1)Flink及其原理
2)Kafka及其原理
3)Kafka+Flink的应用实战
案例:用户行为分析应用举例
25、数据挖掘与人工智能
数据挖掘算法及其原理
数据挖掘过程及其人员配置
SparkML简介
案例:远程智慧医疗平台的人工智能建设过程