大数据平台搭建与高性能计算最佳实战课程
课程天数:2天
课程介绍:
本课程学习会介绍通信、金融、互联网行业的使用案例,使其帮助客户有大数据行业入门的思维,能够自行搭建大数据平台,完成一些数据对接与分析能力、并且提升对大数据平台的认识与理解。
课程收益
理解大数据平台的架构与各组件的使用场景
主流大数据架构设计的实例分析
核心的组件的架构设计与原理,
使用中的经验分享,
培训对象
系统架构师、系统分析师、高级程序员、资深开发人员;
牵涉到大数据处理的数据中心运行、规划、设计负责人;
对大数据、分布式存储、分布式计算、大数据分析等感兴趣的人员;
课程大纲
第一单元:大数据平台方案与应用
1、传统大规模数据处理与分析存在的问题
2、大数据计算框架
离线计算框架
流式计算框架
内存计算框架
3、大数据分析平台方案
Apache Hadoop方案
核心组件
Hadoop 1.0与2.0版本关联与区别
Hadoop生态系统
4、国外主流大数据平台方案
CDH 、Hortonworks、MapR
传统IT公司方案:Oracle Exadata,SAP HANA
5、国内主流大数据平台方案与厂商
6、大数据平台方案比较
第二单元:大数据存储系统
1、HDFS分布式文件系统
HDFS系统架构与原理
NameNode功能详解
fsimage和editslog
DataNode功能详解
block的备份策略
HDFS读写机制
HDFS高可用方案
NameNode单点故障解决方案
第三单元:大数据分析技术(一)–MapReduce计算框架
1、MapReduce编程模型
Map处理
Reduce处理
2、MapReduce处理流程
3、MapReduce开发高级应用
Combiner技术
Partitioner技术
多Reducers应用
4、实践操作
Hadoop平台搭建部署
HDFS的shell命令操作,文件、目录操作,本地上传、下载操作
实战案例:基于HDFS+MapReduce集成的服务器日志分析采集、存储与分析MapReduce程序实例开发与运行
第四单元:大数据分析技术(二)– Spark
1、Spark编程模型
Scala:面向函数的编程
Scala常见函数
Spark编译与运行
2、Spark RDD开发模型
Spark RDD运行机制
分区与并行度
3、Spark RDD主要Transformation
map
flatmap
filter
reduceByKey
4、Spark RDD主要Action
count
collect
reduce
saveAsTextFile
5、Spark RDD依赖关系
宽依赖
窄依赖
6、Spark缓存机制
Cache操作
Persist操作与存储级别
7、Spark集群架构与运行模式
本地模式
独立模式
YARN模式与Mesos模式
8、Spark作业运行机制
执行DAG图
任务集
executor执行模型
BlockManager管理
9、Spark开发与应用实战
案例一:基于Spark的业务日志TopN分析
案例二:基于Spark的机器学习分类分析
第五单元:SQL on Hadoop大数据分析查询
1、基于MapReduce的大数据查询Hive
Hive架构与工作原理
Hive数据加载
Hive内部表和外部表
Hive分区表和分桶表
Hive的存储方式
列存储和行存储
实践操作
Hive SQL基本操作
2、基于Spark的大数据查询SparkSQL
SparkSQL工作原理与执行机制
SparkSQL数据模型DataFrame
SparkSQL数据读取与结果保存
Hive table
RDD
3、SparkSQL和Hive的区别与联系
4、SparkSQL操作实战
数据表读取
数据SQL查询
结果保存
5、基于MPP模型的大数据查询Impala
Impala架构
Impala组件与功能
Impala性能特征与适用场景