Print

大数据(Hadoop、Spark、NOSQL)案例分析与实践

主办单位:中培网   中培管理咨询

时间地点:2016-05-28至2016-05-29 在 西安

学员对象:各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。

费  用: 5800元

【培训对象】

各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。

【课程收益】

【课程大纲】

课程特点

当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架,已经广为人知,且得到了广泛的应用,但MapReduce自身存在很多问题,包括迭代式计算和DAG计算等类型的数据挖掘与机器学习算法性能低下,不能很好地利用内存资源,编程复杂度较高等。为了克服MapReduce的众多问题,新型计算框架出现了。

目标收益

本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark、Hadoo系统基础知识,概念及架构, Spark、Hadoo实战技巧,Spark、Hadoo经典案例等。通过本课程实践,帮助学员对Spark、Hadoo生态系统有一个清晰明了的认识;理解Spark、Hadoo系统适用的场景;掌握Spark、Hadoo等初中级应用开发技能;搭建稳定可靠的Spar、Hadoo k集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,华为等。

学员基础

了解Linux系统及相关语言环境

课程大纲

1、Hadoop简介和生态系统介绍

传统大规模数据分析存在的问题

Hadoop概述 

Hadoop与分布式文件系统

Hadoop生态系统

Hadoop的行业应用案例分析

Hadoop在云计算和大数据的位置和关系

Hadoop版本介绍

Hadoop与Google FS的关系

Hadoop在国内的使用情况和未来

2、Hadoop安装和主要配置文件介绍

Hadoop安装所需软件介绍

Hadoop单机安装

Hadoop伪分布式安装

Hadoop完全分布式安装

Hadoop三个节点安装的配置介绍

Hahoop多节点ssh配置

Hadoop格式化详解

Hadoop核心配置文件介绍

核心配置文件core-site.xml

HDFS配置文件hdfs-site.xml

Mapreduce配置文件mapred-site.xml

master文件配置详解

slave文件配置详解

Hadoop启动和停止方法一

—start-all.sh详解

—stop-all.sh详解

Hadoop的启动和停止方法二

—hadoop-deamon.sh详解

Hadoop安装的常见错误介绍和解决方案

使用自带的wordcount和pi测试集群安装是否成功

使用Streaming来测试集群安装是否成功

3、Hadoop组件介绍

Hadoop NameNode 介绍

Hadoop SecondaryNameNode 介绍 

Hadoop DataNode 介绍

Hadoop JobTracker 介绍 

Hadoop TaskTracker 介绍

4、Hadoop的HDFS模块

HDFS架构介绍

HDFS原理介绍

NameNode功能详解

DataNode功能详解

SecondaryNameNode功能详解

HSFD的fsimage和editslog详解

HDFS的block详解

HDFS的block的备份策略

Hadoop的机架感知配置

HDFS的shell命令介绍

HDFS的thrift server服务介绍

HDFS的API接口介绍

HDFS的权限详解

Hadoop的客服端接入案例

5、MapReducer入门

Mapreduce原理

MapReduce流程

剖析一个MapReduce程序

Mapper和Reducer抽象类详解

Mapreduce的最小驱动类

MapReduce自带的类型

自定义Writables和WritableComparables

Mapreduce的输入InputFormats

MapReduce的输出OutputFormats

Combiner详解

Partitioner详解

DistributeFileSystem详解

Hadoop Tools工具介绍

Counter计数器详解

自定义Counter计数器

基于Hadoop二次开发实战

MapReduce的优化

Map和Reduce的个数设置

Hadoop小文件优化

任务调度

默认的任务调度

公平任务调度

能力任务调度

使用 Hadoop MapReduce Streaming 编程 

MapReduce的单元测试

6、Hive

Hive和Pig基础

Hive、Impala和presto的比较 

Hive的作用和原理说明

Hadoop仓库和传统数据仓库的协作关系

Hadoop/Hive仓库数据数据流

Hive部署和安装

HiveCli的基本用法

Hive的server启动

HQL基本语法

Hive的加载数据本地加载和

HDFS加载

Hive的partition详解

Hive的存储方式详解

RCFILE、TEXTFILE和SEQUEUEFILE

Hive的UDF和UDAF

Hive的transform详解

Hive的JDBC连接

7、Sqoop介绍

Sqoop是什么

Sqoop安装

Sqoop把mysql数据导入HDFS

Sqoop把HDFS数据导入Mysql

Sqoop吧Mysql数据导入Hive

Sqoop吧Mysql数据导入Hive分区

8、Hadoop集群配置和维护

Hadoop集群的部署要点

NameNode和SecondaryNameNode和JobTracker机器的配置要求

dataNode与tasktracker机器的配置要求

Hadoop集群管理的工具介绍

Ganglia和nigos监控Hadoop集群介绍

Ambri介绍

添加和删除节点演示

Namenode的单点解决方案

NameNode的NFS备份介绍

集群所有dataNode挂掉的故障介绍

集群NameNode的fsimage丢掉恢复方法

Hadoop集群维护的注意点

9、Hbase使用

Hbase原理

Hmaster详解

RegionServer详解

Zookeeper介绍

Hbase安装

Hbase逻辑视图介绍

Hbase物理视图介绍

Hbase的二级索引介绍

Hbase的DDL和DML

Hbase表的设计案例

Hbase的import功能介绍

MapReduce操作Hbase

Hbase的thriftServer介绍

Hbase的API介绍

Hbase使用场景介绍

Hbase案例分析

10、大数据在国内的运用

大数据在国内的使用介绍

离线计算框架介绍

流式计算框架介绍

内存计算框架介绍

内存流式计算介绍

大数据实时请求框架介绍

大数据在移动的案例介绍

大数据在银行的案例介绍

大数据在阿里的案例介绍

11、Spark生态介绍

Spark产生背景

Spark(内存计算框架)

SparkSteaming(流式计算框架)

SparkSQL(ad-hoc)

Mllib(MachineLearning)

GraphX(bagel将被代)

12、spark安装部署

Spark安装简介

Spark的源码编译

SparkStandalone安装

SparkStandaloneHA安装

Spark应用程序部署工具spark-submit

13、Spark运行架构和解析

Spark的运行架构

基本术语

运行架构

SparkonStandalone运行过程

SparkonYARN运行过程

Spark运行实例解析

SparkonStandalone实例解析

SparkonYARN实例解析

14、SparkSQL原理和实践

SparkSQL原理

SparkSQL的Catalyst优化器

SparkSQL内核

SparkSQL和Hive

SparkSQL的实例和编程

SparkSQL的实例操作

demoSparkSQL的编程

演讲嘉宾:刘刚 – Teradata 云平台系统架构师

目前在Teradata担任GCA大数据架构师,曾经在阿里巴巴和高德,任职于大数据平台建设(Hadoop)。 1)编写并出版《Hadoop应用开发技术详解》图书,销售10000+册——机械工业出版社(2014-01) 2)专利《海量数据基于记录级别的容错》

【讲师介绍】

        ▓▓▓▓▓▓▓▓▓ (此表复制有效)▓▓▓▓▓▓▓▓

                                    传真至:020-62355807

 

我单位共___ 人报名参加 2016-05-28至2016-05-29西安 举办的 大数据(Hadoop、Spark、NOSQL)案例分析与实践

 

单位名称:______________________________________

 

培训联系人:_________ 联系电话:_________ 联系传真:________

 

移动电话:____________ 电子邮箱:__________________

 

参加人数:____ 费用总计:______

 

人:________ 所任职务:__________ 移动电话:_________

 

人:________ 所任职务:__________ 移动电话:_________

 

人:________ 所任职务:__________ 移动电话:_________

══════════════════════════════════════════

广州电话:(0203997189362355796              传真号码:(02062355807

人:赵小姐、张先生                   报名邮箱: 317709971@QQ.COM

参会方式:请您把培训回执表填写好回传,课前一星期您将会收到传真函,包括培训注意事项及详细安排

文档生成:http://www.chinacpx.com/word/<%=wsid%>.doc