关于举办 “Spark大数据处理与案例分析高级工程师”实战培训班的通知

主办单位：中培网　中培管理咨询

时间地点：2016-05-28至2016-06-01 在广州

学员对象：各地政府云计算物联网产业相关负责人，各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题，需要梳理解答的团队和个人

费　　用： 6800元

【培训对象】

各地政府云计算物联网产业相关负责人，各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题，需要梳理解答的团队和个人

【课程收益】

【课程大纲】

课程目标

本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程，涉及Spark、系统基础知识，概念及架构， Spark实战技巧，Spark经典案例等。

通过本课程实践，帮助学员对Spark生态系统有一个清晰明了的认识；理解Spark、系统适用的场景；掌握Spark等初中级应用开发技能；搭建稳定可靠的Spark集群，满足生产环境的标准；了解和清楚大数据应用的几个行业中的经典案例，包括阿里巴巴等

颁发证书

参加相关培训并通过考试的学员，可以获得：

1.工业和信息化部颁发的《全国计算机专业技术人才证书》-大数据处理高级工程师。该证书可作为专业技术人员职业能力考核的证明，以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。

注：请学员带一寸彩照2张（背面注明姓名）、身份证复印件一张。

培训特色

本课程将分别从理论基础知识，系统搭建以及应用案例三方面对spark进行介绍。

采用循序渐进的课程讲授方法，首先讲解Spark系统基础知识，概念及架构，之后讲解Spark实战技巧，最后详尽地介绍Spark经典案例，使培训者从概念到实战，均会有收获和提高。

培训大纲（3天课程）

模块一 Spark生态介绍 

Mapreduce、storm和spark模型的比较和使用场景介绍

Spark产生背景

Spark（内存计算框架）

SparkSteaming（流式计算框架）

Spark SQL（ad-hoc）

Mllib（MachineLearning）

GraphX（bagel将被代）

DlinkDB介绍

parkR介绍

模块二 Spark安装部署 

Spark安装简介

Spark的源码编译

Spark Standalone安装

Spark应用程序部署工具spark-submit

Spark的高可用性部署

模块三 Spark运行架构和解析 

Spark的运行架构

• 基本术语

• 运行架构

• Spark on Standalone运行过程

• Spark on YARN 运行过程

Spark运行实例解析

• Spark on Standalone实例解析

• Spark on YARN实例解析

模块四 Sparkscala编程

• Scala基本语法与高阶语法

• Scala基本语法

• Scala开发环境搭建

• Scala开发Spark应用程序

• 使用java编程

• 使用scala编程

• 使用python编程

• 比较 Standalone与YARN模式下的优缺点

模块五 Spark编程模型和解析 

Spark的编程模型

• Spark编程模型解析

• RDD的特点、操作、依赖关系

• Spark应用程序的配置

Spark的架构

spark的容错机制

数据的本地性

缓存策略介绍

宽依赖与窄依赖

模块六 Spark 数据挖掘 

Mllib的介绍

graphX核心原理

table operator和graph operator区别

vertices、edges和triplets介绍

构建一个graph

SparkR原理

SparkR实战

模块七 Spark Streaming原理和实践 

Spark Streaming与Strom的区别

Kafka的部署

Kafka与Spark Streaming的整合

Spark Streaming原理

• Spark流式处理架构

• DStream的特点

• Dstream的操作和RDD的区别

• 带状态的transformation与无状态transformation

• Spark Streaming的优化

Spark Streaming实例

Streaming的容错机制

streaming在yarn模式下的注意事项

对于需结合第三方存储机制的与流式处理方案

• 文本实例

• 网络数据处理

• Kafka+Spark Streaming实现日志的实时分析案例

模块八 Spark的优化 

序列化优化——Kryo

Spark参数优化实战

Spark 任务的均匀分布策略

Partition key倾斜的解决方案

Spark任务的监控

GC的优化

Spark Streaming吞吐量优化

Spark RDD使用内存的优化策略

Spark在使用中的感想分享

模块九 Spark的数据源 

Spark与HDFS的整合

HDFS RDD原理和实现

Spark与Hbase的整合

Spark与Cassendera整合

Hbase RDD的分区读取

Hbase RDD的原理和实现

Spark parallelism RDD的工作机制

模块十 Spark Streaming应用及案例分析 

Spark Streaming产生动机

Spark Streaming程序设计

（1）创建DStream

（2）基于DStream进行流式处理

Spark Streaming容错与性能优化

（1）Spark Streaming容错机制

（2）如何对spark Streaming进行优化

Spark Streaming案例分析基于Spark Streaming的用户标签系统，内容包括项目背景，项目架构以及实施方法

模块十一典型项目案例实战 

基于spark日志分析

个性化推荐系统：带你揭开其神秘面纱

在线投放引擎

揭开淘宝点击推荐系统的神秘面纱

淘宝数据服务架构—实时计算平台

师资介绍

张老师：阿里大数据高级专家，国内资深的Spark、Hadoop技术专家、虚拟化专家，对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究，更主要的是这些技术在大量的实际项目中得到广泛的应用，因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有：某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。

【讲师介绍】

　　　　　　▓▓▓▓▓▓▓▓▓ 培训回执表（此表复制有效）▓▓▓▓▓▓▓▓

传真至：020-62355807

我单位共＿＿＿人报名参加 2016-05-28至2016-06-01 在广州举办的 关于举办 “Spark大数据处理与案例分析高级工程师”实战培训班的通知

单位名称：＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿

培训联系人：＿＿＿＿＿＿＿＿＿联系电话：＿＿＿＿＿＿＿＿＿联系传真：＿＿＿＿＿＿＿＿

移动电话：＿＿＿＿＿＿＿＿＿＿＿＿电子邮箱：＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿

参加人数：＿＿＿＿人费用总计：＿＿＿＿＿＿元

参会人：＿＿＿＿＿＿＿＿所任职务：＿＿＿＿＿＿＿＿＿＿移动电话：＿＿＿＿＿＿＿＿＿

══════════════════════════════════════════

广州电话：（020）39971893、62355796　传真号码：（020）62355807

联系人：赵小姐、张先生　　　　　　报名邮箱： 317709971@QQ.COM

参会方式：请您把培训回执表填写好回传，课前一星期您将会收到传真函，包括培训注意事项及详细安排

文档生成：http://www.chinacpx.com/word/<%=wsid%>.doc