Hadoop大数据处理高级工程师-公开课-中培网企业培训官网

您的位置：首页 > 公开课 > > Hadoop大数据处理高级工程师

Hadoop大数据处理高级工程师

收藏课程

课程编号：116826 时间：2015年11月20日-23日讲师：刘老师地点：北京

学习费用：5800 元/位

用手机看：

在线报名 word版下载下载报名表

课程编号

开课日期

地点

培训天数

选择报名

培训对象课程收益课程大纲讲师介绍在线报名

培训对象：

IT公司数据分析师、数据中心架构师、商业智能分析师、研发负责人、研发工程师、各地政府云计算、物联网产业负责人，CIO、信息中心、技术总监，云计算产业投资团队，云计算应用开发商，云计算硬件设备、运营服务

课程收益：

课程大纲：

培训师资

刘老师：阿里大数据高级专家，国内资深的Spark、Hadoop技术专家、虚拟化专家，对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究，更主要的是这些技术在大量的实际项目中得到广泛的应用，因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有：某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。

课程目标

1、了解Hadoop的历史及目前发展的现状、以及Hadoop的技术特点，从而把握分布式计算框架及未来发展方向，在大数据时代能为企业的技术选型及架构设计提供决策参考。

2、全面掌握Hadoop的架构原理和使用场景，并通过贯穿课程的项目进行实战锻炼，从而熟练使用Hadoop进行MapReduce程序开发。课程还涵盖了分布式计算领域的常用算法介绍，帮助学员为企业在利用大数据方面体现自身价值。

3、深入理解Hadoop技术架构,对Hadoop运作机制有清晰全面的认识，可以独立规划及部署生产环境的Hadoop集群，掌握Hadoop基本运维思路和方法，对Hadoop集群进行管理和优化。

培训特色

注重应用：分析国内实际情况，结合国际、国内成功经验。Hadoop采用实战的项目，让学员在短时间内掌握Hadoop的搭建与配置。并进行高效的大数据清洗和分析。形式灵活：互动课堂、免费技术沙龙、提供云计算项目建设咨询、大数据Hadoop平台的搭建。

培训对象

IT公司数据分析师、数据中心架构师、商业智能分析师、研发负责人、研发工程师、各地政府云计算、物联网产业负责人，CIO、信息中心、技术总监，云计算产业投资团队，云计算应用开发商，云计算硬件设备、运营服务提供商，高校、科研院所云计算项目负责人。

高级开发工程师、设计师、架构师、系统管理员、开发经理、测试经理、产品经理、项目经理等。

培训证书

工业和信息化部人才交流中心颁发的《工业和信息化领域急需紧缺人才》大数据分析高级工程师证书。证书可作为专业技术人员职业能力考核的证明，以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。证书查询：www.ncie.gov.cn

培训内容（3天课程）

课程模块课程主题  主要内容  案例和演示

第一天 Hadoop简介和生态系统介绍  传统大规模数据分析存在的问题

 Hadoop概述

 Hadoop与分布式文件系统

 Hadoop生态系统

 Hadoop的行业应用案例分析

 Hadoop在云计算和大数据的位置和关系

 Hadoop版本介绍

 Hadoop与Google FS的关系

 Hadoop在国内的使用情况和未来  Hadoop在推荐领域的使用案例介绍

大数据应用场景  离线计算架构、技术和应用场景

 实时查询架构、技术和应用场景

 流式计算架构、技术和应用场景

 内存计算架构、技术和应用场景

 海量数据的ETL

Hadoop组件介绍  Hadoop NameNode 介绍

 Hadoop SecondaryNameNode 介绍

 Hadoop DataNode 介绍

 Hadoop JobTracker 介绍

 Hadoop TaskTracker 介绍

Hadoop的HDFS模块  HDFS架构介绍

 HDFS原理介绍

 NameNode功能详解

 DataNode功能详解

 SecondaryNameNode功能详解

 HSFD的fsimage和editslog详解

 HDFS的block详解

 HDFS的block的备份策略

 Hadoop的机架感知配置

 HDFS的shell命令介绍

 HDFS的thrift server服务介绍

 HDFS的API接口介绍

 HDFS的权限详解

 Hadoop的客服端接入案例  Hadoop的shell命令演示

 Hadoop的API接口演示

 Hadoop的客服端接入案例

第二天

Hadoop生态组件  集群管理工具—ambari

 分布式存储—HDFS

 分布式计算— MapReduce

 noSQL数据库—Hbase

 工作流工具—Oozie

 数据的并行采集—Flume

 MapReduce脚本工具—Pig

 与关系型数据库之间的数据迁移—Sqoop

 资源管理平台—Yarn

 数据挖掘算法—Mahout

 分布式统一服务—Zookeeper

 Hadoop安全工具—Knox 

MapReducer入门  Mapreduce原理

 MapReduce流程

 剖析一个MapReduce程序

 Mapper和Reducer抽象类详解

 Mapreduce的最小驱动类

 MapReduce自带的类型

 自定义Writables和WritableComparables

 Mapreduce的输入InputFormats

 MapReduce的输出OutputFormats

 Combiner详解

 Partitioner详解

 DistributeFileSystem详解

 Hadoop Tools工具介绍

 Counter计数器详解

 自定义Counter计数器

 基于Hadoop二次开发实战

 MapReduce的优化

 Map和Reduce的个数设置

 Hadoop小文件优化

 任务调度

 默认的任务调度

 公平任务调度

 能力任务调度

 使用 Hadoop MapReduce Streaming 编程

 MapReduce的单元测试  MapReduce实现海量数据比较大小案例

 自定义Hadoop类型案例

 自定义Partitioner案例

 实现在内存随机生成100个数，分成两个Map来比较大小

 多文件输出和自动定义MapReduce的输出名

 MapReduce实现Join算法案例

 MapReduce实现海量文档相似度算法

 自定义Counter案例实现

 MapReduce实现Pangrank算法。

 MapReduce单元测试：Map的单元测试测试、reduce单元测试和MapReduce整体的单元测试实战。

 某公司使用MapReduce分析日志案例（10T数据以上）

 配置公平调度器案例实战

Yarn资源控制  使用Cgroups支持CPU隔离

 指定某个应用的资源使用策略；

 根据指定策略实现 CPU 与内存的固定配额调度

 根据指定策略实现 CPU 与内存百分比的配额调度

 根据指定策略实现不同计算模型(mapreduce、spark)在各个计算节点的分布

 根据指定策略实现不同计算模型个对资源的限定

 根据指定策略实现不同计算模型在具体哪些节点上启动

 基于Yarn的公平调度(Fair Scheduler)和能力调度(Capacity Scheduler)  Yarn资源控制实战

Hive  Hive和Pig基础

 Hive、Impala和presto的比较

 Hive的作用和原理说明

 Hadoop仓库和传统数据仓库的协作关系

 Hadoop/Hive仓库数据数据流

 Hive 部署和安装

 Hive Cli 的基本用法

 Hive的server启动

 HQL基本语法

 Hive的加载数据本地加载和HDFS加载

 Hive的partition详解

 Hive的存储方式详解

 RCFILE、TEXTFILE和SEQUEUEFILE

 Hive的UDF和UDAF

 Hive的transform详解

 Hive的JDBC连接  使用JDBC 连接Hive进行查询和分析

 使用正则表达式加载数据

 编写UDF函数

 编写UDAF自定义函数

 Partition使用实战

 Transform使用实战

 某些大型公司使用hive分析日志案例详解和实战。

第三天 Hbase使用  Hbase原理

 Hmaster详解

 RegionServer详解

 Zookeeper介绍

 Hbase安装

 Hbase逻辑视图介绍

 Hbase物理视图介绍

 Hbase的二级索引介绍

 Hbase 的DDL和DML

 Hbase表的设计案例

 Hbase的import功能介绍

 MapReduce操作Hbase

 Hbase的 thrift Server介绍

 Hbase 的API介绍

 Hbase案例分析  Hbase安装实战

 MapReduce操作Hbase实战

 Hbase的API实战

 Hbase表结构设计实战

Spark介绍  内存计算—Spark

 实时计算—Spark Streaming

 SQL on Spark— Spark QL & Shark

 基于spark的数据挖掘— Mllib

 基于Spark的图计算—graphx

 Spark on Yarn实战  Spark+Kafka+Spark Streaming+Hbase实时计算实战

互联网大数据应用案例  阿里的ODPS大数据平台架构介绍

 阿里的实时推荐架构

 阿里的交叉营销系统

 阿里支付宝交易监控系统

 支付宝微贷案例分析(互联网征信系统)

 京东打白条系统分析

 百度预测大数据平台案例分析

 联通大数据开放平台变现案例分析  基于spark推荐案例实战(数据导入、数据建模、开发、效果展示)

 银行大数据风险监控系统架构详解