核心课程
Porducts
当前位置:首页    核心课程    新技术
新技术
本模块课程设计专为当下最前沿技术的培训设计,着眼于企业发展转型中新技术项目的设计和落地实现。为企业级的开发、运维环境中使用各种技术提供实战型指导。内容涵盖了大数据、云计算、人工智能、物联网、5G、区块链开发六大课程体系。
大数据   大数据平台搭建与高性能计算

image.png  大数据平台搭建与高性能计算最佳实战课程

image.png  课程天数:2天

image.png  课程介绍:

     本课程学习会介绍通信、金融、互联网行业的使用案例,使其帮助客户有大数据行业入门的思维,能够自行搭建大数据平台,完成一些数据对接与分析能力、并且提升对大数据平台的认识与理解。

image.png  课程收益

     理解大数据平台的架构与各组件的使用场景

     主流大数据架构设计的实例分析

核心的组件的架构设计与原理, 

使用中的经验分享, 

image.png  培训对象

     系统架构师、系统分析师、高级程序员、资深开发人员;

     牵涉到大数据处理的数据中心运行、规划、设计负责人;

     对大数据、分布式存储、分布式计算、大数据分析等感兴趣的人员;


image.png  课程大纲

第一单元:大数据平台方案与应用

1、传统大规模数据处理与分析存在的问题

2、大数据计算框架

      离线计算框架

      流式计算框架

      内存计算框架

3、大数据分析平台方案

      Apache Hadoop方案

      核心组件

      Hadoop 1.0与2.0版本关联与区别

      Hadoop生态系统

4、国外主流大数据平台方案

      CDH 、Hortonworks、MapR

      传统IT公司方案:Oracle Exadata,SAP HANA

5、国内主流大数据平台方案与厂商

6、大数据平台方案比较


第二单元:大数据存储系统

1、HDFS分布式文件系统

      HDFS系统架构与原理

      NameNode功能详解

      fsimage和editslog

      DataNode功能详解

      block的备份策略

      HDFS读写机制

      HDFS高可用方案

      NameNode单点故障解决方案


第三单元:大数据分析技术(一)–MapReduce计算框架 

1、MapReduce编程模型

      Map处理

      Reduce处理

2、MapReduce处理流程

3、MapReduce开发高级应用

      Combiner技术

      Partitioner技术

      多Reducers应用

4、实践操作

      Hadoop平台搭建部署

      HDFS的shell命令操作,文件、目录操作,本地上传、下载操作

      实战案例:基于HDFS+MapReduce集成的服务器日志分析采集、存储与分析MapReduce程序实例开发与运行


第四单元:大数据分析技术(二)– Spark

1、Spark编程模型

      Scala:面向函数的编程

      Scala常见函数

      Spark编译与运行

2、Spark RDD开发模型

      Spark RDD运行机制

      分区与并行度

3、Spark RDD主要Transformation

      map

      flatmap

      filter

      reduceByKey

4、Spark RDD主要Action

      count

      collect

      reduce

      saveAsTextFile

5、Spark RDD依赖关系

      宽依赖

      窄依赖

6、Spark缓存机制

      Cache操作

      Persist操作与存储级别

7、Spark集群架构与运行模式

      本地模式

      独立模式

      YARN模式与Mesos模式

8、Spark作业运行机制

      执行DAG图

      任务集

      executor执行模型

      BlockManager管理

9、Spark开发与应用实战

      案例一:基于Spark的业务日志TopN分析

      案例二:基于Spark的机器学习分类分析


第五单元:SQL on Hadoop大数据分析查询

1、基于MapReduce的大数据查询Hive

      Hive架构与工作原理

      Hive数据加载

      Hive内部表和外部表

      Hive分区表和分桶表

      Hive的存储方式

      列存储和行存储

      实践操作

      Hive SQL基本操作

2、基于Spark的大数据查询SparkSQL

      SparkSQL工作原理与执行机制

      SparkSQL数据模型DataFrame

      SparkSQL数据读取与结果保存

      Hive table

      RDD

3、SparkSQL和Hive的区别与联系

4、SparkSQL操作实战

      数据表读取

      数据SQL查询

      结果保存

5、基于MPP模型的大数据查询Impala

     Impala架构

     Impala组件与功能

     Impala性能特征与适用场景


  课程目录
1、大数据商业模式创新
2、大数据技术转型案例分析和最佳实践
3、大数据支撑数字化运营
4、Hadoop开发、运维和调优实战
5、基于Flink搭建流计算平台
6、大数据治理落地实战
7、大数据平台搭建与高性能计算
8、Hadoop,Spark,NoSQL(HBase)实战
9、Python大数据可视化
10、Python大数据实战
11、ElasticSearch高级培训 - 优化与管理
12、ELK实战-大数据接入分析可视化
站内搜索
联系电话
010-52883521
24小时全国咨询热线,言语交流更有效
公众平台
QQ客服

点击图标,马上与客服沟通  >>
返回顶部