核心课程
Porducts
当前位置:首页    核心课程    新技术
新技术
本模块课程设计专为当下最前沿技术的培训设计,着眼于企业发展转型中新技术项目的设计和落地实现。为企业级的开发、运维环境中使用各种技术提供实战型指导。内容涵盖了大数据、云计算、人工智能、物联网、5G、区块链开发六大课程体系。
大数据   大数据技术转型案例分析和最佳实践

image.png  大数据技术转型案例分析和最佳实践课程

image.png  课程天数:4天

image.png  课程介绍:

     本课程首先从全局的视角,全面介绍了未来技术发展的趋势,以及大数据在整个技术架构中所处的位置。大数据的应用场景、设计思想,以及如何开发大数据的商业价值。

     接着,课程由浅入深地介绍了Hadoop及其核心组件、Spark分布式计算框架与Scala语言。在此基础上,课程详细介绍建设大数据分析系统所需的各类系统及其开发实战,包括Sqoop, Hive, HBase, Kylin, ElasticSearch, Kafka, Flink以及Zookeeper。

     课程最后,站在实战的角度,讲解了一个传统分析型系统的大数据转型过程:期初遇到哪些难题,解决的思路,以及整个转型的过程。

image.png  课程对象:

     系统架构师、系统分析师、高级程序员、资深开发人员。

     牵涉到海量数据处理的机构数据中心运行、规划、设计负责人。

     云服务运营服务提供商规划负责人。


image.png  课程大纲:

1、大数据分析处理技术与商业价值

      传统的软件架构

      传统架构的设计局限

      用户操作的三种类型

      针对三种操作的优化策略

      基于读写分离的架构设计

      应用案例:淘宝网的架构设计


2、BI分析系统

      OLTP vs. OLAP

      面向主题的设计思想

      数据仓库与BI分析系统

      基于传统架构的BI系统建设

      基于大数据的BI系统建设

      应用案例:宏观经济分析系统与中美贸易摩擦的分析


3、大数据分析系统

      1)解决大并发问题的方案→读写分离→NoSQL数据库

      应用案例:12306网站的余票查询

      2)解决海量数据收集与存储→收集日志文件→分布式文件系统

      应用案例:用户推荐系统的建设

      3)数据挖掘与机器学习→丰富的分析工具→组建数据分析团队

      应用案例:企业征信平台


4、大数据时代思维的变革

      不是随机样本,而是全体数据

      不是精确性,而是混杂性

      不是因果关系,而是相关关系


5、大数据时代的商业价值

      从最不可能的地方获取数据

      不再是数字化,而是数据化

      数据的思维创新

      大数据的商业应用


6、Hadoop技术框架

      Hadoop的发展历程

      Google的MapReduce

      Google的Bigtable

      Facebook的Cassandra

      结论:Hadoop有效地降低了大数据门槛


7、Hadoop的设计理念

     分布式并行计算

     移动计算而不是移动数据

     单点故障可容忍


8、Hadoop的生态圈

      Hadoop核心组件:MapReduce,HDFS

      Hadoop2.0

      并行计算框架:Spark vs. MapReduce

      在线查询:HBase与Impala

      流式计算:Storm vs. Spark Stream

      文本索引:Solr vs. ElasticSearch

      Zookeeper与高可靠架构

      Kafka分布式队列与日志收集

      数据挖掘工具:Mahout、SparkR与Spark ML


9、Hadoop核心组件工作原理

      HDFS的工作原理

      MapReduce的工作原理

      对工作原理的深度解读


10、MapReduce实战

      实战:编写WordCount程序

      实战:实现日志分析程序(Map only)

      实战:实现数据关联查询


11、MapReduce的性能调优

      使用分布式缓存

      处理文件的读写

      Combiner, partitioner与order

      重复使用变量原则


12、Spark技术工作原理

      Spark在Hadoop生态圈中的位置

      Spark vs. MapReduce

      Spark系统架构与RDD

      案例:WordCount在Spark中的实现


13、Spark编程

      对RDD编程

      对名-值对RDD编程

      数据装载与保存

      SparkSQL

      案例:运用Spark实现用户资料的采集与展现


14、Scala编程语言

       Scala语言的编程特点

       Scala编程基础

       函数式编程

       组合与继承


15、Spark的测试与发布

       Spark-shell

       本地运行调试

       部署运行分布式系统


16、传统分析系统向大数据转型

       传统分析系统向大数据转型

       传统BI系统面临的难题

解决方案:

     1)正确的技术选型降低门槛

     2)演化式技术转型

案例:一次税务数据分析的演化式BI转型过程

     1)项目背景介绍

     2)革命式大数据转型的风险

     3)渐进式大数据转型的思路

     4)转型过程中的技术选型思路


17、第一阶段转型:ETL过程的大数据转型

1、大数据分析系统的整体架构

2、传统BI分析系统的设计套路

     1)多维建模与数据仓库

     2)数据治理与ETL过程

3、大数据分析系统的架构设计

     1)大数据分析系统的技术选型

     2)大数据分析系统的硬件配置


18、数据导入导出

       sqoop工作原理

       数据导入功能

       实战:数据导入的实战应用

       数据导出功能

       实战:数据导出的实战应用


19、ETL过程

       ETL的概念

       Hive工作原理

       Hive命令:创建表、导入数据、查询数据、分区

       Hive+SparkSQL的开发实战

       清洗、转换、集成、装载的应用案例


20、数据查询

       离线分析、在线查询与近线分析

       NoSQL数据库

       HBase的工作原理


21、高可靠的架构设计

       Zookeeper的运行原理

       实战:Zookeeper实现高可靠的软件架构


22、第二阶段转型:建立ElasticSearch数据索引

数据索引

1、ElasticSearch的性能分析与特点

2、ElasticSearch的应用实战

     1)建立ElasticSearch的Hive映射表

     2)往ElasticSearch中写入数据

     3)用REST接口进行海量数据秒级查询

3、ElasticSearch应用开发应注意的问题


23、第三阶段转型:引入Kylin大数据多维建模

数据分析

1、多维数据建模

2、Kylin的工作原理

3、Kylin的开发实战

     1)Kylin的数据导入

     2)建立数据模型

     3)建立Cube

     4)使用jdbc进行数据查询

4、Kylin的性能优化

     1)Kylin的数据膨胀率

     2)强制索引、层级索引与组合索引

     3)Kylin的增量导入脚本


24、第四阶段转型:深度大数据应用

实时数据分析

1、批处理 vs. 实时分析

2、实时分析系统应用实战

     1)Flink及其原理

     2)Kafka及其原理

     3)Kafka+Flink的应用实战

案例:用户行为分析应用举例


25、数据挖掘与人工智能

     数据挖掘算法及其原理

     数据挖掘过程及其人员配置

     SparkML简介

     案例:远程智慧医疗平台的人工智能建设过程


  课程目录
1、大数据商业模式创新
2、大数据技术转型案例分析和最佳实践
3、大数据支撑数字化运营
4、Hadoop开发、运维和调优实战
5、基于Flink搭建流计算平台
6、大数据治理落地实战
7、大数据平台搭建与高性能计算
8、Hadoop,Spark,NoSQL(HBase)实战
9、Python大数据可视化
10、Python大数据实战
11、ElasticSearch高级培训 - 优化与管理
12、ELK实战-大数据接入分析可视化
站内搜索
联系电话
010-52883521
24小时全国咨询热线,言语交流更有效
公众平台
QQ客服

点击图标,马上与客服沟通  >>
返回顶部