睿圣天云网 - 核心课程 -

大数据大数据平台搭建与高性能计算

大数据平台搭建与高性能计算最佳实战课程

课程天数：2天

课程介绍：

本课程学习会介绍通信、金融、互联网行业的使用案例，使其帮助客户有大数据行业入门的思维，能够自行搭建大数据平台，完成一些数据对接与分析能力、并且提升对大数据平台的认识与理解。

课程收益

理解大数据平台的架构与各组件的使用场景

主流大数据架构设计的实例分析

核心的组件的架构设计与原理，

使用中的经验分享，

培训对象

系统架构师、系统分析师、高级程序员、资深开发人员；

牵涉到大数据处理的数据中心运行、规划、设计负责人；

对大数据、分布式存储、分布式计算、大数据分析等感兴趣的人员；

课程大纲

第一单元：大数据平台方案与应用

1、传统大规模数据处理与分析存在的问题

2、大数据计算框架

离线计算框架

流式计算框架

内存计算框架

3、大数据分析平台方案

Apache Hadoop方案

核心组件

Hadoop 1.0与2.0版本关联与区别

Hadoop生态系统

4、国外主流大数据平台方案

CDH 、Hortonworks、MapR

传统IT公司方案：Oracle Exadata，SAP HANA

5、国内主流大数据平台方案与厂商

6、大数据平台方案比较

第二单元：大数据存储系统

1、HDFS分布式文件系统

HDFS系统架构与原理

NameNode功能详解

fsimage和editslog

DataNode功能详解

block的备份策略

HDFS读写机制

HDFS高可用方案

NameNode单点故障解决方案

第三单元：大数据分析技术（一）–MapReduce计算框架

1、MapReduce编程模型

Map处理

Reduce处理

2、MapReduce处理流程

3、MapReduce开发高级应用

Combiner技术

Partitioner技术

多Reducers应用

4、实践操作

Hadoop平台搭建部署

HDFS的shell命令操作，文件、目录操作，本地上传、下载操作

实战案例：基于HDFS+MapReduce集成的服务器日志分析采集、存储与分析MapReduce程序实例开发与运行

第四单元：大数据分析技术（二）– Spark

1、Spark编程模型

Scala：面向函数的编程

Scala常见函数

Spark编译与运行

2、Spark RDD开发模型

Spark RDD运行机制

分区与并行度

3、Spark RDD主要Transformation

map

flatmap

filter

reduceByKey

4、Spark RDD主要Action

count

collect

reduce

saveAsTextFile

5、Spark RDD依赖关系

宽依赖

窄依赖

6、Spark缓存机制

Cache操作

Persist操作与存储级别

7、Spark集群架构与运行模式

本地模式

独立模式

YARN模式与Mesos模式

8、Spark作业运行机制

执行DAG图

任务集

executor执行模型

BlockManager管理

9、Spark开发与应用实战

案例一：基于Spark的业务日志TopN分析

案例二：基于Spark的机器学习分类分析

第五单元：SQL on Hadoop大数据分析查询

1、基于MapReduce的大数据查询Hive

Hive架构与工作原理

Hive数据加载

Hive内部表和外部表

Hive分区表和分桶表

Hive的存储方式

列存储和行存储

实践操作

Hive SQL基本操作

2、基于Spark的大数据查询SparkSQL

SparkSQL工作原理与执行机制

SparkSQL数据模型DataFrame

SparkSQL数据读取与结果保存

Hive table

RDD

3、SparkSQL和Hive的区别与联系

4、SparkSQL操作实战

数据表读取

数据SQL查询

结果保存

5、基于MPP模型的大数据查询Impala

Impala架构

Impala组件与功能

Impala性能特征与适用场景

课程目录

1、大数据商业模式创新
2、大数据技术转型案例分析和最佳实践
3、大数据支撑数字化运营
4、Hadoop开发、运维和调优实战
5、基于Flink搭建流计算平台
6、大数据治理落地实战
7、大数据平台搭建与高性能计算
8、Hadoop，Spark，NoSQL(HBase)实战
9、Python大数据可视化
10、Python大数据实战
11、ElasticSearch高级培训 - 优化与管理
12、ELK实战-大数据接入分析可视化