睿圣天云网 - 核心课程 -

大数据大数据技术转型案例分析和最佳实践

大数据技术转型案例分析和最佳实践课程

课程天数：4天

课程介绍：

本课程首先从全局的视角，全面介绍了未来技术发展的趋势，以及大数据在整个技术架构中所处的位置。大数据的应用场景、设计思想，以及如何开发大数据的商业价值。

接着，课程由浅入深地介绍了Hadoop及其核心组件、Spark分布式计算框架与Scala语言。在此基础上，课程详细介绍建设大数据分析系统所需的各类系统及其开发实战，包括Sqoop, Hive, HBase, Kylin, ElasticSearch, Kafka, Flink以及Zookeeper。

课程最后，站在实战的角度，讲解了一个传统分析型系统的大数据转型过程：期初遇到哪些难题，解决的思路，以及整个转型的过程。

课程对象：

系统架构师、系统分析师、高级程序员、资深开发人员。

牵涉到海量数据处理的机构数据中心运行、规划、设计负责人。

云服务运营服务提供商规划负责人。

课程大纲：

1、大数据分析处理技术与商业价值

传统的软件架构

传统架构的设计局限

用户操作的三种类型

针对三种操作的优化策略

基于读写分离的架构设计

应用案例：淘宝网的架构设计

2、BI分析系统

OLTP vs. OLAP

面向主题的设计思想

数据仓库与BI分析系统

基于传统架构的BI系统建设

基于大数据的BI系统建设

应用案例：宏观经济分析系统与中美贸易摩擦的分析

3、大数据分析系统

1）解决大并发问题的方案→读写分离→NoSQL数据库

应用案例：12306网站的余票查询

2）解决海量数据收集与存储→收集日志文件→分布式文件系统

应用案例：用户推荐系统的建设

3）数据挖掘与机器学习→丰富的分析工具→组建数据分析团队

应用案例：企业征信平台

4、大数据时代思维的变革

不是随机样本，而是全体数据

不是精确性，而是混杂性

不是因果关系，而是相关关系

5、大数据时代的商业价值

从最不可能的地方获取数据

不再是数字化，而是数据化

数据的思维创新

大数据的商业应用

6、Hadoop技术框架

Hadoop的发展历程

Google的MapReduce

Google的Bigtable

Facebook的Cassandra

结论：Hadoop有效地降低了大数据门槛

7、Hadoop的设计理念

分布式并行计算

移动计算而不是移动数据

单点故障可容忍

8、Hadoop的生态圈

Hadoop核心组件：MapReduce，HDFS

Hadoop2.0

并行计算框架：Spark vs. MapReduce

在线查询：HBase与Impala

流式计算：Storm vs. Spark Stream

文本索引：Solr vs. ElasticSearch

Zookeeper与高可靠架构

Kafka分布式队列与日志收集

数据挖掘工具：Mahout、SparkR与Spark ML

9、Hadoop核心组件工作原理

HDFS的工作原理

MapReduce的工作原理

对工作原理的深度解读

10、MapReduce实战

实战：编写WordCount程序

实战：实现日志分析程序（Map only）

实战：实现数据关联查询

11、MapReduce的性能调优

使用分布式缓存

处理文件的读写

Combiner, partitioner与order

重复使用变量原则

12、Spark技术工作原理

Spark在Hadoop生态圈中的位置

Spark vs. MapReduce

Spark系统架构与RDD

案例：WordCount在Spark中的实现

13、Spark编程

对RDD编程

对名-值对RDD编程

数据装载与保存

SparkSQL

案例：运用Spark实现用户资料的采集与展现

14、Scala编程语言

Scala语言的编程特点

Scala编程基础

函数式编程

组合与继承

15、Spark的测试与发布

Spark-shell

本地运行调试

部署运行分布式系统

16、传统分析系统向大数据转型

传统分析系统向大数据转型

传统BI系统面临的难题

解决方案：

1）正确的技术选型降低门槛

2）演化式技术转型

案例：一次税务数据分析的演化式BI转型过程

1）项目背景介绍

2）革命式大数据转型的风险

3）渐进式大数据转型的思路

4）转型过程中的技术选型思路

17、第一阶段转型：ETL过程的大数据转型

1、大数据分析系统的整体架构

2、传统BI分析系统的设计套路

1）多维建模与数据仓库

2）数据治理与ETL过程

3、大数据分析系统的架构设计

1）大数据分析系统的技术选型

2）大数据分析系统的硬件配置

18、数据导入导出

sqoop工作原理

数据导入功能

实战：数据导入的实战应用

数据导出功能

实战：数据导出的实战应用

19、ETL过程

ETL的概念

Hive工作原理

Hive命令：创建表、导入数据、查询数据、分区

Hive+SparkSQL的开发实战

清洗、转换、集成、装载的应用案例

20、数据查询

离线分析、在线查询与近线分析

NoSQL数据库

HBase的工作原理

21、高可靠的架构设计

Zookeeper的运行原理

实战：Zookeeper实现高可靠的软件架构

22、第二阶段转型：建立ElasticSearch数据索引

数据索引

1、ElasticSearch的性能分析与特点

2、ElasticSearch的应用实战

1）建立ElasticSearch的Hive映射表

2）往ElasticSearch中写入数据

3）用REST接口进行海量数据秒级查询

3、ElasticSearch应用开发应注意的问题

23、第三阶段转型：引入Kylin大数据多维建模

数据分析

1、多维数据建模

2、Kylin的工作原理

3、Kylin的开发实战

1）Kylin的数据导入

2）建立数据模型

3）建立Cube

4）使用jdbc进行数据查询

4、Kylin的性能优化

1）Kylin的数据膨胀率

2）强制索引、层级索引与组合索引

3）Kylin的增量导入脚本

24、第四阶段转型：深度大数据应用

实时数据分析

1、批处理 vs. 实时分析

2、实时分析系统应用实战

1）Flink及其原理

2）Kafka及其原理

3）Kafka+Flink的应用实战

案例：用户行为分析应用举例

25、数据挖掘与人工智能

数据挖掘算法及其原理

数据挖掘过程及其人员配置

SparkML简介

案例：远程智慧医疗平台的人工智能建设过程

课程目录

1、大数据商业模式创新
2、大数据技术转型案例分析和最佳实践
3、大数据支撑数字化运营
4、Hadoop开发、运维和调优实战
5、基于Flink搭建流计算平台
6、大数据治理落地实战
7、大数据平台搭建与高性能计算
8、Hadoop，Spark，NoSQL(HBase)实战
9、Python大数据可视化
10、Python大数据实战
11、ElasticSearch高级培训 - 优化与管理
12、ELK实战-大数据接入分析可视化