核心课程
Porducts
当前位置:首页    核心课程    新技术
新技术
本模块课程设计专为当下最前沿技术的培训设计,着眼于企业发展转型中新技术项目的设计和落地实现。为企业级的开发、运维环境中使用各种技术提供实战型指导。内容涵盖了大数据、云计算、人工智能、物联网、5G、区块链开发六大课程体系。
大数据   Hadoop,Spark,NoSQL(HBase)实战

image.png  Hadoop,Spark,NoSQL(HBase)实战课程

image.png  课程天数:2天

image.png  课程介绍

     Hadoop体系是目前各行业做大数据分析最常用的技术软件架构,它涵盖了HDFS,YARN,Spark,Flink,HBase等著名大数据组件。掌握Hadoop是大数据从业人员的必经之路,本课程讲授了以上几个主要技术的核心知识点,并结合企业最佳实践安排了实战应用环节,为学员打造了从学习到实战的成长闭环。

image.png  课程收益

     学员通过实践本课程,能够熟悉大数据行业和分布式系统的技术核心知识点;通过Hadoop,Spark,HBase知识的学习,能够掌握大数据应用的开发和运维能力,并能够掌握海量数据处理的编码和性能调优经验。让学员能够从0到1独立完成Hadoop,Spark,HBase分布式系统的搭建;熟悉中国Top5互联网企业(如阿里巴巴,腾讯)的大数据平台中Hadoop,Spark的技术应用和最佳实践。

image.png  培训对象

     本课程不仅适合大数据 Hadoop, Spark,HBase 从业人员,同时也适合热爱或者希望未来从事大数据相关工作的人员,软件开发工程师,运维工程师以及架构师学习。通过本课程,学员将能够快速熟悉和掌握大数据利器,在生产中解决实际问题。 


image.png  课程大纲

第一单元:大数据技术在企业的应用

1、Hadoop体系软件架构

2、企业应用Hadoop的技术架构

3、Hadoop体系技术架构介绍

      海量数据存储技术:HDFS

      海量数据计算技术:Spark,Flink,Presto,Hive

      资源调度:YARN,Mesos

      任务调度:Azkaban

      日志搜索:Elasticsearch

      数据收集,传输:Beats,Flume


第二单元:Hadoop存储与离线计算

1、HDFS 

     架构原理

     NameNode, DataNode, JournalNode 工作原理

     FSimage和Edit文件

     文件读写流程

     HDFS的副本机制

     HDFS Shell操作

     Java API操作

     如何实现HDFS 高可用

2、MapReduce

     核心思想

     编程模型:Map与Reduce基本用法

     用MapReduce编程实现 TopN 排序、

     MapReduce Join算法

     数据倾斜与优化

3、YARN 

     架构原理

     NodeManger,ResourceManager, ApplicationMaster工作原理

     HA高可用

     MapReduce ON YARN

     Yarn的资源调度机制

     YARN集群提交任务

4、Hadoop安装流程

     单机版(伪分布式)Hadoop集群安装

     分布式Hadoop集群安装


第三单元:Spark流式与分布式SQL计算引擎

1、Spark Core

     RDD 编程模型

     分布式运行架构:Spark Standalone、Spark ON YARN

     spark-shell、spark-submit,spark-sql的使用方法

     RDD Action和Transformation操作

2、Spark Streaming

     Spark Streaming原理

     Spark流式处理架构

     DStream的特点

     Dstream的操作和RDD的区别

     SatefulRDD和windowRDD实战

     Kafka+Spark Steaming实战

     Spark Streaming的优化

     Kafka+Spark Streaming实例

     实现自定义的数据源

3、Spark SQL

     Spark SQL原理

     Spark SQL的Catalyst优化器

     Spark SQL内核

     Spark SQL和Hive

     DataFrame和DataSet架构

     Dataframe、DataSet和Spark SQL的比较

     SparkSQL parquet格式实战

     Spark SQL的实例和编程

     Spark SQL的实例操作demo

     Spark SQL的编程

4、Spark优化

     Spark SQL的优化

     基于Spark计算的文件格式选择

     Spark on Yarn的优化

     Spark SQL执行计划的优化

     Spark 内存管理的机制

5、Spark综合实战:

     flume+Kafka+Spark Streaming+MySQL集成开发

     MySQL + HBase 实现多源聚合SQL查询引擎


第四单元:HBase 与NoSQL

1、NoSQL认知

     海量数据与NoSQL

     为什么要用HBase

2、HBase Shell基本操作

     用create命令建表

     用list命令来查看库中有哪些表

     用describe命令来查看表属性

     用put命令来插入数据

     用scan来查看表数据

     用get来获取单元格数据

     用delete来删除数据

     deleteall来删除整行记录

     用disable来停用表

     用drop来删除表

3、使用HBase API

     HTable类和Table接口

     put方法

     append方法

     increment方法

     get方法

     exists 方法

     delete方法

     mutation方法


第五单元:HBase进阶掌握

1、深入HBase原理

     数据模型

     HBase是怎么存储数据的

     预写日志 WAL

     MemStore

     HFile( StoreFile)

     KeyValue类

     数据读写

     Region

2、过滤器与协处理器

     过滤器

     过滤器快速入门

     比较运算快速入门

     分页过滤器

     过滤器列表

     行键过滤器

     列过滤器

     单元格过滤器

     装饰过滤器

     协处理器(coprocessor)

     协处理器家族

     快速入门

     如何加载

     协处理器核心类

     观察者(Observers)

     终端程序(EndPoint)

3、HBase 性能调优

     Master和RegionServer的JVM调优

     Region的拆分

     Region的合并(merge)

     WAL的优化

     BlockCache的优化

     Memstore的优化

     HFile(StoreFile)的合并(Compaction)

4、HBase 实战

     Spark与HBase结合实现广告展现流与广告点击流关联


第六单元:企业大数据实战

1、电商运营实时分析系统

     实时统计指标

     聚合统计实现

2、广告点击率统计系统

     广告展示,点击模型,CTR指标

     展示流和点击流的关联方式

     Spark + HBase + MySQL的架构和实现

3、企业级实时数据仓库

     数据仓库模型设计

     数据仓库的实时ETL

     数据仓库的聚合表

     数据仓库的纬度表关联


  课程目录
1、大数据商业模式创新
2、大数据技术转型案例分析和最佳实践
3、大数据支撑数字化运营
4、Hadoop开发、运维和调优实战
5、基于Flink搭建流计算平台
6、大数据治理落地实战
7、大数据平台搭建与高性能计算
8、Hadoop,Spark,NoSQL(HBase)实战
9、Python大数据可视化
10、Python大数据实战
11、ElasticSearch高级培训 - 优化与管理
12、ELK实战-大数据接入分析可视化
站内搜索
联系电话
010-52883521
24小时全国咨询热线,言语交流更有效
公众平台
QQ客服

点击图标,马上与客服沟通  >>
返回顶部