Hadoop开发、运维和调优实战课程
课程天数:3天
课程介绍:
本课程学习目的是将大数据技术,基本概念和应用场景进行一次提纲挈领地全面介绍,通过Hadoop、Hive、Spark、HBase知识的学习,能够掌握大数据应用的开发和运维能力,并能够掌握海量数据处理的编码和性能调优经验。
课程收益
您的大数据平台是否遇到如下一些问题:
大数据平台的硬件平台如何优化和选型?
出现问题不知道如何入手?
随着节点、数据量、任务数的增多集群不稳定?
集群的计算资源还有很多,但是运行任务特别慢?
想把不同的节点计算资源定向的分配给某些任务(如:30节点搭建的集群,10个节点分配给 MapReduce、Hive离线计算;10各节点分配给Hbase任务;10个节点分配给Spark任务?)
集群的安全不知道如何控制?
Hbase随着数据量的增加新能快速的下降?
不同用户、部门如何高效、安全的接入大数据平台?
这门课程帮助您解决上面所有常见的问题。
培训对象
大数据运维工程师;
大数据开发工程师;
对大数据运维、优化感兴趣的同学;
课程大纲
第一单元:大数据的整体技术架构
1、开源大数据技术架构
2、开源大数据常用组件之间的依赖关系
3、离线计算框架介绍
Mapreduce、Hive、Tez、Presto、Kylin
4、实时查询框架介绍
NoSQL、Hbase
5、实时计算框架介绍
Kafka、Strom、Spark Streaming
6、内存计算框架介绍
Spark、SparkSQL、SparkMllib、SparkR
7、前沿大数据技术介绍
Flink、Drill、Druid、KUDU等
8、海量日志快速检索架构
ELK(Elasticsearch、Logstash、Kibana)等
第二单元:Hadoop平台优化点
1、Linux系统的优化
2、最佳硬件的选择和建议
3、HDFS架构和原理
4、HDFS的优化、维护和经常出现的问题
5、MapReduce架构和原理
6、MapReduce的优化、维护和经常出现的问题
7、Yarn的内存、CPU和IO的优化
8、Hbase的优化和生产环境常见的问题
9、Hive的优化和Hive的改进工具介绍
10、Impala、Kylin、Presto工具介绍
11、RCFile、ORC和parquet格式介绍
第三单元:Hadoop核心组件的运维
1、HDFS的元数据管理
2、FSimage和Edit文件解析
3、手动修改FSimage和Edit文件
4、HDFS HA的架构运维解析
5、Yarn服务运维详解
6、Yarn核心配置参数的详解
7、Hbase服务运维详解
8、手动设置Split和Compaction操作
9、RS宕机的运维处理
10、Hbase 超大表的优化实践
第四单元:Yarn资源管理
1、Yarn的原理和架构
2、Yarn资源调度策略
3、CPU、内存和IO三种资源调度优化
4、Yarn资源调度Capacity详解
5、JobHistory的功能介绍
6、Yarn动态资源的设置
7、动态分配特定节点给每个应用(MR、Strom、Spark、Hbase等)
8、基于Yarn平台任务的监控实现
统计每个任务运行的时间、在哪个队列、哪个用户、平均执行时间等等
第五单元:Hbase运维和优化
1、Hbase重要参数优化
2、Hbase读性能优化
3、Hbase写性能优化
4、Hbase表优化
5、Hbase split优化
6、Hbase compaction优化
7、RS Group多租户原理
8、RS失败的无痛恢复机制
第六单元:大数据平台安全设置
1、Kerberos原理介绍
2、Hadoop与Kerberos集成
3、Sentry、Ranger工具介绍
4、大数据平台资源安全控制
5、HDFS安全控制实践
6、Hive安全控制实践
7、Hbase安全控制实践
第七单元:300个节点大数据运维实战
1、300节点的Hadoop平台介绍
2、平台的优化介绍
3、平台的动态资源分配
4、平台的安全控制介绍
5、客户端连接Hadoop平台介绍
6、集群的安全控制介绍