Hadoop,Spark,NoSQL(HBase)实战课程
课程天数:2天
课程介绍
Hadoop体系是目前各行业做大数据分析最常用的技术软件架构,它涵盖了HDFS,YARN,Spark,Flink,HBase等著名大数据组件。掌握Hadoop是大数据从业人员的必经之路,本课程讲授了以上几个主要技术的核心知识点,并结合企业最佳实践安排了实战应用环节,为学员打造了从学习到实战的成长闭环。
课程收益
学员通过实践本课程,能够熟悉大数据行业和分布式系统的技术核心知识点;通过Hadoop,Spark,HBase知识的学习,能够掌握大数据应用的开发和运维能力,并能够掌握海量数据处理的编码和性能调优经验。让学员能够从0到1独立完成Hadoop,Spark,HBase分布式系统的搭建;熟悉中国Top5互联网企业(如阿里巴巴,腾讯)的大数据平台中Hadoop,Spark的技术应用和最佳实践。
培训对象
本课程不仅适合大数据 Hadoop, Spark,HBase 从业人员,同时也适合热爱或者希望未来从事大数据相关工作的人员,软件开发工程师,运维工程师以及架构师学习。通过本课程,学员将能够快速熟悉和掌握大数据利器,在生产中解决实际问题。
课程大纲
第一单元:大数据技术在企业的应用
1、Hadoop体系软件架构
2、企业应用Hadoop的技术架构
3、Hadoop体系技术架构介绍
海量数据存储技术:HDFS
海量数据计算技术:Spark,Flink,Presto,Hive
资源调度:YARN,Mesos
任务调度:Azkaban
日志搜索:Elasticsearch
数据收集,传输:Beats,Flume
第二单元:Hadoop存储与离线计算
1、HDFS
架构原理
NameNode, DataNode, JournalNode 工作原理
FSimage和Edit文件
文件读写流程
HDFS的副本机制
HDFS Shell操作
Java API操作
如何实现HDFS 高可用
2、MapReduce
核心思想
编程模型:Map与Reduce基本用法
用MapReduce编程实现 TopN 排序、
MapReduce Join算法
数据倾斜与优化
3、YARN
架构原理
NodeManger,ResourceManager, ApplicationMaster工作原理
HA高可用
MapReduce ON YARN
Yarn的资源调度机制
YARN集群提交任务
4、Hadoop安装流程
单机版(伪分布式)Hadoop集群安装
分布式Hadoop集群安装
第三单元:Spark流式与分布式SQL计算引擎
1、Spark Core
RDD 编程模型
分布式运行架构:Spark Standalone、Spark ON YARN
spark-shell、spark-submit,spark-sql的使用方法
RDD Action和Transformation操作
2、Spark Streaming
Spark Streaming原理
Spark流式处理架构
DStream的特点
Dstream的操作和RDD的区别
SatefulRDD和windowRDD实战
Kafka+Spark Steaming实战
Spark Streaming的优化
Kafka+Spark Streaming实例
实现自定义的数据源
3、Spark SQL
Spark SQL原理
Spark SQL的Catalyst优化器
Spark SQL内核
Spark SQL和Hive
DataFrame和DataSet架构
Dataframe、DataSet和Spark SQL的比较
SparkSQL parquet格式实战
Spark SQL的实例和编程
Spark SQL的实例操作demo
Spark SQL的编程
4、Spark优化
Spark SQL的优化
基于Spark计算的文件格式选择
Spark on Yarn的优化
Spark SQL执行计划的优化
Spark 内存管理的机制
5、Spark综合实战:
flume+Kafka+Spark Streaming+MySQL集成开发
MySQL + HBase 实现多源聚合SQL查询引擎
第四单元:HBase 与NoSQL
1、NoSQL认知
海量数据与NoSQL
为什么要用HBase
2、HBase Shell基本操作
用create命令建表
用list命令来查看库中有哪些表
用describe命令来查看表属性
用put命令来插入数据
用scan来查看表数据
用get来获取单元格数据
用delete来删除数据
deleteall来删除整行记录
用disable来停用表
用drop来删除表
3、使用HBase API
HTable类和Table接口
put方法
append方法
increment方法
get方法
exists 方法
delete方法
mutation方法
第五单元:HBase进阶掌握
1、深入HBase原理
数据模型
HBase是怎么存储数据的
预写日志 WAL
MemStore
HFile( StoreFile)
KeyValue类
数据读写
Region
2、过滤器与协处理器
过滤器
过滤器快速入门
比较运算快速入门
分页过滤器
过滤器列表
行键过滤器
列过滤器
单元格过滤器
装饰过滤器
协处理器(coprocessor)
协处理器家族
快速入门
如何加载
协处理器核心类
观察者(Observers)
终端程序(EndPoint)
3、HBase 性能调优
Master和RegionServer的JVM调优
Region的拆分
Region的合并(merge)
WAL的优化
BlockCache的优化
Memstore的优化
HFile(StoreFile)的合并(Compaction)
4、HBase 实战
Spark与HBase结合实现广告展现流与广告点击流关联
第六单元:企业大数据实战
1、电商运营实时分析系统
实时统计指标
聚合统计实现
2、广告点击率统计系统
广告展示,点击模型,CTR指标
展示流和点击流的关联方式
Spark + HBase + MySQL的架构和实现
3、企业级实时数据仓库
数据仓库模型设计
数据仓库的实时ETL
数据仓库的聚合表
数据仓库的纬度表关联