睿圣天云网 - 核心课程 -

大数据 Hadoop，Spark，NoSQL(HBase)实战

Hadoop，Spark，NoSQL(HBase)实战课程

课程天数：2天

课程介绍

Hadoop体系是目前各行业做大数据分析最常用的技术软件架构，它涵盖了HDFS，YARN，Spark，Flink，HBase等著名大数据组件。掌握Hadoop是大数据从业人员的必经之路，本课程讲授了以上几个主要技术的核心知识点，并结合企业最佳实践安排了实战应用环节，为学员打造了从学习到实战的成长闭环。

课程收益

学员通过实践本课程，能够熟悉大数据行业和分布式系统的技术核心知识点；通过Hadoop，Spark，HBase知识的学习，能够掌握大数据应用的开发和运维能力，并能够掌握海量数据处理的编码和性能调优经验。让学员能够从0到1独立完成Hadoop，Spark，HBase分布式系统的搭建；熟悉中国Top5互联网企业（如阿里巴巴，腾讯）的大数据平台中Hadoop，Spark的技术应用和最佳实践。

培训对象

本课程不仅适合大数据 Hadoop, Spark，HBase 从业人员，同时也适合热爱或者希望未来从事大数据相关工作的人员，软件开发工程师，运维工程师以及架构师学习。通过本课程，学员将能够快速熟悉和掌握大数据利器，在生产中解决实际问题。

课程大纲

第一单元：大数据技术在企业的应用

1、Hadoop体系软件架构

2、企业应用Hadoop的技术架构

3、Hadoop体系技术架构介绍

海量数据存储技术：HDFS

海量数据计算技术：Spark，Flink，Presto，Hive

资源调度：YARN，Mesos

任务调度：Azkaban

日志搜索：Elasticsearch

数据收集，传输：Beats，Flume

第二单元：Hadoop存储与离线计算

1、HDFS

架构原理

NameNode, DataNode, JournalNode 工作原理

FSimage和Edit文件

文件读写流程

HDFS的副本机制

HDFS Shell操作

Java API操作

如何实现HDFS 高可用

2、MapReduce

核心思想

编程模型：Map与Reduce基本用法

用MapReduce编程实现 TopN 排序、

MapReduce Join算法

数据倾斜与优化

3、YARN

架构原理

NodeManger,ResourceManager, ApplicationMaster工作原理

HA高可用

MapReduce ON YARN

Yarn的资源调度机制

YARN集群提交任务

4、Hadoop安装流程

单机版(伪分布式)Hadoop集群安装

分布式Hadoop集群安装

第三单元：Spark流式与分布式SQL计算引擎

1、Spark Core

RDD 编程模型

分布式运行架构：Spark Standalone、Spark ON YARN

spark-shell、spark-submit，spark-sql的使用方法

RDD Action和Transformation操作

2、Spark Streaming

Spark Streaming原理

Spark流式处理架构

DStream的特点

Dstream的操作和RDD的区别

SatefulRDD和windowRDD实战

Kafka+Spark Steaming实战

Spark Streaming的优化

Kafka+Spark Streaming实例

实现自定义的数据源

3、Spark SQL

Spark SQL原理

Spark SQL的Catalyst优化器

Spark SQL内核

Spark SQL和Hive

DataFrame和DataSet架构

Dataframe、DataSet和Spark SQL的比较

SparkSQL parquet格式实战

Spark SQL的实例和编程

Spark SQL的实例操作demo

Spark SQL的编程

4、Spark优化

Spark SQL的优化

基于Spark计算的文件格式选择

Spark on Yarn的优化

Spark SQL执行计划的优化

Spark 内存管理的机制

5、Spark综合实战：

flume+Kafka+Spark Streaming+MySQL集成开发

MySQL + HBase 实现多源聚合SQL查询引擎

第四单元：HBase 与NoSQL

1、NoSQL认知

海量数据与NoSQL

为什么要用HBase

2、HBase Shell基本操作

用create命令建表

用list命令来查看库中有哪些表

用describe命令来查看表属性

用put命令来插入数据

用scan来查看表数据

用get来获取单元格数据

用delete来删除数据

deleteall来删除整行记录

用disable来停用表

用drop来删除表

3、使用HBase API

HTable类和Table接口

put方法

append方法

increment方法

get方法

exists 方法

delete方法

mutation方法

第五单元：HBase进阶掌握

1、深入HBase原理

数据模型

HBase是怎么存储数据的

预写日志 WAL

MemStore

HFile（ StoreFile）

KeyValue类

数据读写

Region

2、过滤器与协处理器

过滤器

过滤器快速入门

比较运算快速入门

分页过滤器

过滤器列表

行键过滤器

列过滤器

单元格过滤器

装饰过滤器

协处理器（coprocessor）

协处理器家族

快速入门

如何加载

协处理器核心类

观察者（Observers）

终端程序（EndPoint）

3、HBase 性能调优

Master和RegionServer的JVM调优

Region的拆分

Region的合并（merge）

WAL的优化

BlockCache的优化

Memstore的优化

HFile（StoreFile）的合并（Compaction）

4、HBase 实战

Spark与HBase结合实现广告展现流与广告点击流关联

第六单元：企业大数据实战

1、电商运营实时分析系统

实时统计指标

聚合统计实现

2、广告点击率统计系统

广告展示，点击模型，CTR指标

展示流和点击流的关联方式

Spark + HBase + MySQL的架构和实现

3、企业级实时数据仓库

数据仓库模型设计

数据仓库的实时ETL

数据仓库的聚合表

数据仓库的纬度表关联

课程目录

1、大数据商业模式创新
2、大数据技术转型案例分析和最佳实践
3、大数据支撑数字化运营
4、Hadoop开发、运维和调优实战
5、基于Flink搭建流计算平台
6、大数据治理落地实战
7、大数据平台搭建与高性能计算
8、Hadoop，Spark，NoSQL(HBase)实战
9、Python大数据可视化
10、Python大数据实战
11、ElasticSearch高级培训 - 优化与管理
12、ELK实战-大数据接入分析可视化