目标收益
本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark、Hadoo系统基础知识,概念及架构, Spark、Hadoo实战技巧,Spark、Hadoo经典案例等。
通过本课程实践,帮助学员对Spark、Hadoo生态系统有一个清晰明了的认识;理解Spark、Hadoo系统适用的场景;掌握Spark、Hadoo等初中级应用开发技能;搭建稳定可靠的Spar、Hadoo k集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,华为等。
培训对象
各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。
学员基础
了解Linux系统及相关语言环境
课程大纲
 
| 主题 | 内容 | 
| Hadoop简介和生态系统介绍 | 传统大规模数据分析存在的问题 Hadoop概述
 Hadoop与分布式文件系统
 Hadoop生态系统
 Hadoop的行业应用案例分析
 Hadoop在云计算和大数据的位置和关系
 Hadoop版本介绍
 Hadoop与Google FS的关系
 Hadoop在国内的使用情况和未来
 | 
| Hadoop安装和主要配置文件介绍 | Hadoop安装所需软件介绍Hadoop单机安装
 Hadoop伪分布式安装
 Hadoop完全分布式安装
 Hadoop三个节点安装的配置介绍
 Hahoop多节点ssh配置
 Hadoop格式化详解
 Hadoop核心配置文件介绍
 核心配置文件core-site.xml
 HDFS配置文件hdfs-site.xml
 Mapreduce配置文件mapred-site.xml
 master文件配置详解
 slave文件配置详解
 Hadoop启动和停止方法一
 —start-all.sh详解
 —stop-all.sh详解
 Hadoop的启动和停止方法二
 —hadoop-deamon.sh详解
 Hadoop安装的常见错误介绍和解决方案
 使用自带的wordcount和pi测试集群安装是否成功
 使用Streaming来测试集群安装是否成功
 | 
| Hadoop组件介绍 | Hadoop NameNode 介绍Hadoop SecondaryNameNode 介绍
 Hadoop DataNode 介绍
 Hadoop JobTracker 介绍
 Hadoop TaskTracker 介绍
 | 
| Hadoop的HDFS模块 | HDFS架构介绍HDFS原理介绍
 NameNode功能详解
 DataNode功能详解
 SecondaryNameNode功能详解
 HSFD的fsimage和editslog详解
 HDFS的block详解
 HDFS的block的备份策略
 Hadoop的机架感知配置
 HDFS的shell命令介绍
 HDFS的thrift server服务介绍
 HDFS的API接口介绍
 HDFS的权限详解
 Hadoop的客服端接入案例
 | 
| MapReducer入门 | Mapreduce原理MapReduce流程
 剖析一个MapReduce程序
 Mapper和Reducer抽象类详解
 Mapreduce的最小驱动类
 MapReduce自带的类型
 自定义Writables和WritableComparables
 Mapreduce的输入InputFormats
 MapReduce的输出OutputFormats
 Combiner详解
 Partitioner详解
 DistributeFileSystem详解
 Hadoop Tools工具介绍
 Counter计数器详解
 自定义Counter计数器
 基于Hadoop二次开发实战
 MapReduce的优化
 Map和Reduce的个数设置
 Hadoop小文件优化
 任务调度
 默认的任务调度
 公平任务调度
 能力任务调度
 使用 Hadoop MapReduce Streaming 编程
 MapReduce的单元测试
 | 
| Hive | Hive和Pig基础Hive、Impala和presto的比较
 Hive的作用和原理说明
 Hadoop仓库和传统数据仓库的协作关系
 Hadoop/Hive仓库数据数据流
 Hive部署和安装
 HiveCli的基本用法
 Hive的server启动
 HQL基本语法
 Hive的加载数据本地加载和HDFS加载
 Hive的partition详解
 Hive的存储方式详解
 RCFILE、TEXTFILE和SEQUEUEFILE
 Hive的UDF和UDAF
 Hive的transform详解
 Hive的JDBC连接
 | 
| Sqoop介绍 | Sqoop是什么Sqoop安装
 Sqoop把mysql数据导入HDFS
 Sqoop把HDFS数据导入Mysql
 Sqoop吧Mysql数据导入Hive
 Sqoop吧Mysql数据导入Hive分区
 | 
| Hadoop集群配置和维护 | Hadoop集群的部署要点NameNode和SecondaryNameNode和JobTracker机器的配置要求
 dataNode与tasktracker机器的配置要求
 Hadoop集群管理的工具介绍
 Ganglia和nigos监控Hadoop集群介绍
 Ambri介绍
 添加和删除节点演示
 Namenode的单点解决方案
 NameNode的NFS备份介绍
 集群所有dataNode挂掉的故障介绍
 集群NameNode的fsimage丢掉恢复方法
 Hadoop集群维护的注意点
 | 
| Hbase使用 | Hbase原理Hmaster详解
 RegionServer详解
 Zookeeper介绍
 Hbase安装
 Hbase逻辑视图介绍
 Hbase物理视图介绍
 Hbase的二级索引介绍
 Hbase的DDL和DML
 Hbase表的设计案例
 Hbase的import功能介绍
 MapReduce操作Hbase
 Hbase的thriftServer介绍
 Hbase的API介绍
 Hbase使用场景介绍
 Hbase案例分析
 | 
| 大数据在国内的运用 | 大数据在国内的使用介绍离线计算框架介绍
 流式计算框架介绍
 内存计算框架介绍
 内存流式计算介绍
 大数据实时请求框架介绍
 大数据在移动的案例介绍
 大数据在银行的案例介绍
 大数据在阿里的案例介绍
 | 
| Spark生态介绍 | Spark产生背景Spark(内存计算框架)
 SparkSteaming(流式计算框架)
 SparkSQL(ad-hoc)
 Mllib(MachineLearning)
 GraphX(bagel将被代)
 | 
| spark安装部署 | Spark安装简介Spark的源码编译
 SparkStandalone安装
 SparkStandaloneHA安装
 Spark应用程序部署工具spark-submit
 | 
| Spark运行架构和解析 | Spark的运行架构基本术语
 运行架构
 SparkonStandalone运行过程
 SparkonYARN运行过程
 Spark运行实例解析
 SparkonStandalone实例解析
 SparkonYARN实例解析
 | 
| SparkSQL原理和实践 | SparkSQL原理SparkSQL的Catalyst优化器
 SparkSQL内核
 SparkSQL和Hive
 SparkSQL的实例和编程
 SparkSQL的实例操作demo
 SparkSQL的编程
 |