曙海教学优势
专家授课,全国连锁,专注21年,原厂培训,本课程以项目实现为导向,授课老师将会与您分享设计的全流程以及工具的综合使用技巧以及经验。您可以定制课程,线上/线下/上门均可,报名电话:4008699035。
曙海的课程在业内广受好评。二十几年以来,曙海的课程培养了大批受欢迎的工程师。大批企事业单位和曙海
建立了良好的合作关系,合作企业30万+。
培训对象:需要使用Hadoop来进行数据分析的数据分析员,商业分析
教学大纲:
Hadoop基础
Pig基础
使用Pig进行简单数据分析
使用Pig处理复杂数据
使用Pig分析处理多数据集
Pig排错和优化
Hive与Impala基础
使用Hive与Impala进行数据分析
数据管理
数据存储与性能
使用Hive与Impala进行数据分析
Impala如何执行查询/扩展及改善性能
使用Hive分析处理文本数据
Hive优化
扩展Hive
如何选取数据分析工具
课程大纲:
Hadoop Fundamentals
Hadoop Overview
Data Storage: HDFS
Distributed Data Processing: YARN, MapReduce, and Spark
Data Processing and Analysis: Pig, Hive, and Impala
Data Integration: Sqoop
Other Hadoop Data Tools
Exercise Scenarios Explanation
Introduction to Pig
What Is Pig?
Pig’s Features
Pig Use Cases
Interacting with Pig
Basic Data Analysis with Pig
Pig Latin Syntax
Loading Data
Simple Data Types
Field Definitions
Data Output
Viewing the Schema
Filtering and Sorting Data
Commonly-Used Functions
Processing Complex Data with Pig
S torage Formats
Complex/Nested Data Types
G rouping
Built-In Functions for Complex Data
Iterating Grouped Data
Multi-Dataset Operations with Pig
Techniques for Combining Data Sets
Joining Data Sets in Pig
Set Operations
Splitting Data Sets
Pig Troubleshooting and Optimization
Troubleshooting Pig
Logging
Using Hadoop’s Web UI
Data Sampling and Debugging
Performance Overview