服务热线

400-600-2138

大数据(Hadoop、Spark、NOSQL)案例分析与实践

收藏课程
课程编号:126288 时间:2016年04月16日-17日 讲师:刘刚 地点:西安
学习费用:5800 元/位
用手机看:
课程编号 开课日期 地点 培训天数 选择报名

培训对象:

各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。

课程收益:

课程大纲:

演讲嘉宾:刘刚 – Teradata 云平台系统架构师

目前在Teradata担任GCA大数据架构师,曾经在阿里巴巴和高德,任职于大数据平台建设(Hadoop)。 1)编写并出版《Hadoop应用开发技术详解》图书,销售10000+册——机械工业出版社(2014-01) 2)专利《海量数据基于记录级别的容错》

课程特点

当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架,已经广为人知,且得到了广泛的应用,但MapReduce自身存在很多问题,包括迭代式计算和DAG计算等类型的数据挖掘与机器学习算法性能低下,不能很好地利用内存资源,编程复杂度较高等。为了克服MapReduce的众多问题,新型计算框架出现了。

目标收益

本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark、Hadoo系统基础知识,概念及架构, Spark、Hadoo实战技巧,Spark、Hadoo经典案例等。

通过本课程实践,帮助学员对Spark、Hadoo生态系统有一个清晰明了的认识;理解Spark、Hadoo系统适用的场景;掌握Spark、Hadoo等初中级应用开发技能;搭建稳定可靠的Spar、Hadoo k集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,华为等。

培训对象

各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。

学员基础

了解Linux系统及相关语言环境

课程大纲

主题 内容

Hadoop简介和生态系统介绍 传统大规模数据分析存在的问题

Hadoop概述

Hadoop与分布式文件系统

Hadoop生态系统

Hadoop的行业应用案例分析

Hadoop在云计算和大数据的位置和关系

Hadoop版本介绍

Hadoop与Google FS的关系

Hadoop在国内的使用情况和未来

Hadoop安装和主要配置文件介绍 Hadoop安装所需软件介绍

Hadoop单机安装

Hadoop伪分布式安装

Hadoop完全分布式安装

Hadoop三个节点安装的配置介绍

Hahoop多节点ssh配置

Hadoop格式化详解

Hadoop核心配置文件介绍

核心配置文件core-site.xml

HDFS配置文件hdfs-site.xml

Mapreduce配置文件mapred-site.xml

master文件配置详解

slave文件配置详解

Hadoop启动和停止方法一

—start-all.sh详解

—stop-all.sh详解

Hadoop的启动和停止方法二

—hadoop-deamon.sh详解

Hadoop安装的常见错误介绍和解决方案

使用自带的wordcount和pi测试集群安装是否成功

使用Streaming来测试集群安装是否成功

Hadoop组件介绍 Hadoop NameNode 介绍

Hadoop SecondaryNameNode 介绍

Hadoop DataNode 介绍

Hadoop JobTracker 介绍

Hadoop TaskTracker 介绍

Hadoop的HDFS模块 HDFS架构介绍

HDFS原理介绍

NameNode功能详解

DataNode功能详解

SecondaryNameNode功能详解

HSFD的fsimage和editslog详解

HDFS的block详解

HDFS的block的备份策略

Hadoop的机架感知配置

HDFS的shell命令介绍

HDFS的thrift server服务介绍

HDFS的API接口介绍

HDFS的权限详解

Hadoop的客服端接入案例

MapReducer入门 Mapreduce原理

MapReduce流程

剖析一个MapReduce程序

Mapper和Reducer抽象类详解

Mapreduce的最小驱动类

MapReduce自带的类型

自定义Writables和WritableComparables

Mapreduce的输入InputFormats

MapReduce的输出OutputFormats

Combiner详解

Partitioner详解

DistributeFileSystem详解

Hadoop Tools工具介绍

Counter计数器详解

自定义Counter计数器

基于Hadoop二次开发实战

MapReduce的优化

Map和Reduce的个数设置

Hadoop小文件优化

任务调度

默认的任务调度

公平任务调度

能力任务调度

使用 Hadoop MapReduce Streaming 编程

MapReduce的单元测试

Hive Hive和Pig基础

Hive、Impala和presto的比较

Hive的作用和原理说明

Hadoop仓库和传统数据仓库的协作关系

Hadoop/Hive仓库数据数据流

Hive部署和安装

HiveCli的基本用法

Hive的server启动

HQL基本语法

Hive的加载数据本地加载和HDFS加载

Hive的partition详解

Hive的存储方式详解

RCFILE、TEXTFILE和SEQUEUEFILE

Hive的UDF和UDAF

Hive的transform详解

Hive的JDBC连接

Sqoop介绍 Sqoop是什么

Sqoop安装

Sqoop把mysql数据导入HDFS

Sqoop把HDFS数据导入Mysql

Sqoop吧Mysql数据导入Hive

Sqoop吧Mysql数据导入Hive分区

Hadoop集群配置和维护 Hadoop集群的部署要点

NameNode和SecondaryNameNode和JobTracker机器的配置要求

dataNode与tasktracker机器的配置要求

Hadoop集群管理的工具介绍

Ganglia和nigos监控Hadoop集群介绍

Ambri介绍

添加和删除节点演示

Namenode的单点解决方案

NameNode的NFS备份介绍

集群所有dataNode挂掉的故障介绍

集群NameNode的fsimage丢掉恢复方法

Hadoop集群维护的注意点

Hbase使用 Hbase原理

Hmaster详解

RegionServer详解

Zookeeper介绍

Hbase安装

Hbase逻辑视图介绍

Hbase物理视图介绍

Hbase的二级索引介绍

Hbase的DDL和DML

Hbase表的设计案例

Hbase的import功能介绍

MapReduce操作Hbase

Hbase的thriftServer介绍

Hbase的API介绍

Hbase使用场景介绍

Hbase案例分析

大数据在国内的运用 大数据在国内的使用介绍

离线计算框架介绍

流式计算框架介绍

内存计算框架介绍

内存流式计算介绍

大数据实时请求框架介绍

大数据在移动的案例介绍

大数据在银行的案例介绍

大数据在阿里的案例介绍

Spark生态介绍 Spark产生背景

Spark(内存计算框架)

SparkSteaming(流式计算框架)

SparkSQL(ad-hoc)

Mllib(MachineLearning)

GraphX(bagel将被代)

spark安装部署 Spark安装简介

Spark的源码编译

SparkStandalone安装

SparkStandaloneHA安装

Spark应用程序部署工具spark-submit

Spark运行架构和解析 Spark的运行架构

基本术语

运行架构

SparkonStandalone运行过程

SparkonYARN运行过程

Spark运行实例解析

SparkonStandalone实例解析

SparkonYARN实例解析

SparkSQL原理和实践 SparkSQL原理

SparkSQL的Catalyst优化器

SparkSQL内核

SparkSQL和Hive

SparkSQL的实例和编程

SparkSQL的实例操作demo

SparkSQL的编程

讲师介绍:

在线报名:

客户报名咨询:020-39971893     400 600 2138

近期相关公开课:

报名服务流程:

中培网优势:

热门课程

会员登录

勾选即代表确认同意《用户协议》

没有账号?立即注册

忘记密码?