数据分析员,数据挖掘工程师
| 课程编号 | 开课日期 | 地点 | 培训天数 | 选择报名 |
数据分析员,数据挖掘工程师
时间地点:2013年7月25-26日上海
课程费用:5000元/人
培训对象:数据分析员,数据挖掘工程师
学员基础:具有一定数据分析经验
课程背景:
本次课程将介绍数据挖掘技术的基本理论和体系架构,通过大型数据挖掘项目案例阐述数据挖掘项目的实施过程和方法。通过实际应用案例讲解数据清洗、数据预处理、数据挖掘算法等重要概念。详细讲解构建数据挖掘体系的核心方法和技术,并结合实际项目搭建数据挖掘环境。熟悉主流数据挖掘厂商及相关软件产品的操作和使用。
课程特点:
培训过程中将以大型项目案例为背景,逐步讲解整个数据挖掘的设计过程和实施方法
课程将以深入浅出的案例让学员轻松掌握数据挖掘相关概念和技术
课程的重点是项目实施,将深入探讨数据挖掘项目的实施问题,逐一解决项目实施过程中所遇到的问题和处理技巧
结合动手实验和小而精的例子,使学员充分理解数据挖掘架构设计和相关实施工具的使用
培训目标:
了解数据挖掘基本概念及方法论
了解数据挖掘商业价值
掌握数据挖掘建模的主要方法
学习数据挖掘的实际应用方法
学习主流的数据挖掘工具
授课方式: 定制课程 + 案例讲解 + 小组讨论,60%案例讲解,40%实践演练
培训内容: 2天
课程大纲:
第一天上午:
数据挖掘基础知识
内容一:数据挖掘基本概念
1、 数据挖掘的来源
2、 数据挖掘的定义
3、 数据挖掘的应用领域
4、 数据挖掘的
内容二:BI的架构
1、BI体系介绍
2、数据仓库介绍
3、ETL介绍
4、多维数据库介绍
5、前端展现介绍
6、数据挖掘模型介绍
内容三:数据挖掘工具介绍
1、ETL工具和数据预处理工具介绍
2、SPSS工具介绍
3、SAS工具介绍
4、SSAS工具介绍
内容四、数据挖掘在行业中的应用
1、现代企业数据挖掘需求概述
2、电信行业案例分析
3、金融行业案例研究
4、销售行业案例分析
5、BI系统数据更新与维护
介绍数据挖掘基本概念,BI体系架构, 数据挖掘工具介绍及其应用,针对行业提供行业解决方案和案例分析。
第一天下午:
数据挖掘架构设计与完整流程详解
内容一:九种数据挖掘算法
1、 九种挖掘算法应用的背景
2、 决策树算法与模型设计
3、 聚类算法与模型设计
4、 关联规则算法与模型设计
5、 贝叶斯算法与模型设计
6、 时间序列算法与模型设计
7、 其他挖掘算法与模型设计
内容二:常用挖掘模型详解
1、决策树算法详解及工具实现
2、聚类算法详解及工具实现
3、关联规则算法详解及工具实现
4、贝叶斯算法详解及工具实现
5、时间序列算法详解及工具实现
6、数据挖掘模型评估
内容三:数据挖掘的流程
1、数据清洗准备
2、数据预处理
3、选择数据挖掘模型
4、数据挖掘模型训练
5、更新算法模型
6、模型评估
7、部署与应用
内容四:DMX语言
1、DMX语法结构
2、使用DMX创建挖掘模型
3、使用DMX将挖掘结果导出
4、使用DMX进行挖掘模型参数设置
九种数据挖掘算法与模型详解,数据挖掘的设计与实施流程,数据挖掘查询语言的使用等,重点对决策树算法、关联规则算法、聚类算法等给出详细设计和处理流程。
第二天上午:
数据挖掘项目案例分析
内容一:中国电信数据挖掘项目
1、项目介绍
2、复杂多系统多数据源的特点
3、ODS的使用
4、整体项目架构设计
5、数据挖掘算法选取
6、数据挖掘模型设计
7、数据挖掘处理流程
8、数据抽取策略的制定
8、挖掘模型的更新技巧
内容二:MSN数据挖掘项目
1、项目介绍
2、项目中的海量数据
3、数据挖掘算法
4、数据挖掘模型构建
5、数据的预处理技术
6、对挖掘模型进行训练
7、展示数据挖掘模型结果
8、数据挖掘模型评估
内容三:AdventureWorks整体项目案例
1、案例介绍
2、ETL流程详解
3、OLAP流程详解
4、前端报表流程详解
5、数据挖掘流程详解
大型数据仓库与数据挖掘项目设计和实施,重点对项目架构设计和数据完整处理流程做重点分析和详细介绍,针对大型数据挖掘项目,提供了完备的解决方案,给出完整设计思路和数据处理技术应用。
第二天下午:
数据挖掘工具操作与使用
内容一:SPSS工具操作与使用
1、SPSS工具基本介绍
2、数据清洗与整合功能
3、建立挖掘模型流程
4、训练和处理挖掘模型
5、使用相关控件
6、使用SPSS解决业务问题
内容二:SAS工具操作与使用
1、SAS基本介绍
2、SAS中的控件
3、SAS中训练和处理挖掘模型
4、SAS使用中需要注意的问题
5、SAS操作技巧与实践经验
内容三:SSAS中的挖掘模型
1、SSAS中的数据挖掘模型介绍
2、使用SSAS建立挖掘模型
3、使用SSAS训练挖掘模型
4、使用SSAS展现挖掘结果
5、使用SSAS与SSIS将挖掘结果导出
详细讲解主流数据挖掘工具操作与使用,结合实际项目案例给出工具使用方法和演示,并给出使用中的常用方法和处理技巧。
讲师介绍:戴老师
具有11年商业挖掘和数据仓库行业经验。精通企业级的数据仓库架构;建模;ETCL过程:包括数据的清洗,抽取,转换,加载等技术,对ETCL有比较深刻的了解和设计思想;搭建OLAP;前端展现和数据挖掘;数据整合与集成;海量数据处理,多次处理开发基于海量数据的项目。精通工具为:J2EE架构,.NET架构,Oracle, OWB,Informatica, SQL Server 2005及SQL Server 2008数据仓库相关工具,熟悉主流BI开发工具,Reporting Servers, ProClarity, Brio, BO等前端展现工具等。培训经验丰富,与学员互动,针对性强,强调实际动手能力和解决实际项目能力的培养,讲授效果明显。
项目经验:
项目名称:Search Funnel
项目描述:该项目是微软总部的数据分析项目,主要针对微软MSN搜索引擎的数据进行分析,建立数据仓库,找出查询关键词之间的关联关系。
项目大小:7人
项目时间:2004年5月-2004年12月
担任角色:ETL工程师
工作内容:负责后台全部数据仓库的整体架构,流程实现
该项目的难点是海量数据的处理,完成了MSN一个月的数据处理,数据量为18亿条,针对海量数据做了相当多的优化工作。
开发工具:SQL Server 2000,C# 2003,PD,VSS,Visio
项目名称:Microsoft Marketing Log Data Analysis
项目描述:该项目是基于微软全球146个国家的数据进行数据分析,建立点击流数据仓库,进行报表分析,数据统计和数据挖掘。
项目大小:8人
项目时间:2005年1月-2005年6月
担任角色:项目负责人,PM
工作内容:该项目历时半年,由我与微软总部客户Jim Yang高级项目经理每星期沟通一次,中国方面我来负责,包括Extract, Transformation, Cleansing And Loading等工作。
开发工具:SQL Server 2005 Integration Servers,SQL Server 2005 Analysis Servers,SQL Server 2005 Reporting Servers,C# 2005 Beta 3,PD,Visio,VSS,ProClarity,ProClarity Analysis Servers
项目名称:Microsoft Website Search
项目描述:该项目是基于微软全球网站搜索数据进行数据挖掘。包括词频统计、相似度分析、入口分析等,自行编写分析挖掘软件。
项目大小:5人
项目时间:2005年1月-2005年6月
担任角色:项目负责人,PM
工作内容:带领5人实施该项目。从开始的需求分析,到流程架构,项目实施,作为负责人,完成与客户的英语交流,英文文档,项目前期准备工作,项目源码管理,项目实施等工作。
开发工具:SQL Server 2000,C# 2003,PD,Visio,VSS
项目名称:Keyword Association Graph
项目描述:该项目是基于微软总部MSN搜索引擎数据进行关键词Association Rule分析。该项目是美国微软总部的演示项目,前端使用了当时先进的Ajax等技术。
项目大小:5人
项目时间:2006年7月-2006年9月
担任角色:数据仓库负责人
工作内容:负责后台所有架构,代码的实现。包括建立处理规则,索引与分区等的实现。
开发工具:SQL Server 2005 Beta 1,C# 2005 Beta 1,PD,VSS,Visio,Ajax相关工具。
项目名称:Microsoft Questions Text Data Mining
项目描述:文本挖掘项目,该项目是对微软总部的调查数据进行文本挖掘。
项目大小:3人
项目时间:2005年6月-2005年7月
担任角色:项目负责人,PM
工作内容:带领3人实施该项目。从准备工作,到关键词提取,禁用词与同义词的清理,最后到得出最终挖掘结果,时间为3周。
开发工具:SQL Server 2005 Integration Servers,C# 2005,PD,Visio,VSS
项目名称:新浪网数据仓库项目
项目描述:基于新浪网海量的网站数据建立数据仓库,进行多维分析和数据挖掘。
项目大小:13人
项目时间:2005年6月-2005年12月
担任角色:ETL工程师
工作内容: 在项目中负责ETL,参与建立CUBE,使用进行ProClarity报表分析,使用SQL Server 2005 Data Mining工具进行数据挖掘。
开发工具:SQL Server 2005,ProClarity,PD
项目名称:昆仑亿发Survey项目
项目描述:该项目是昆仑亿发公司的OLAP项目,全部程序编码实现。使用了AMO等技术。
项目大小:3人
项目时间:2006年1月-2006年2月
担任角色:项目负责人,PM
工作内容:自主开发AS下建立CUBE的代码,使用AMO等技术,并进行维护和添加新的功能等工作。
开发工具: Oracle,BO,AMO,PD
项目名称:承德钢铁公司数据挖掘项目
项目描述: 基于承德钢铁公司Oracle的ERP数据源上Business Intelligence项目,进行数据分析和数据挖掘。
项目大小:18人
项目时间:2005年6月-2005年10月
担任角色:ETL工程师
工作内容: 在项目中负责售前培训,数据仓库逻辑模型与物理模型建立,进行ETL工程,搭建OLAP,建立多维数据库,进行报表和挖掘。
开发工具:Oracle,Informatica,Oracle Warehouse Brower,Java,Sybase Essbase,BO,PD,Rose,SPSS
项目名称:华为固话数据分析
项目描述:该项目是对深圳华为公司固话数据进行数据分析,按不同维度进行分析,找到消费时间段等信息。处理的数据需要按分钟进行调度,难度比较大,通过数据仓库性能优化,达到了所需要的效果和要求。
项目大小:15人
项目时间:2004年1月-2004年6月
担任角色:ETL工程师
工作内容:负责数据仓库设计,ETL流程处理及调度,数据仓库的性能优化。
开发工具:Oracle,PD,Informatica
项目名称:中原房地产数据挖掘
项目描述:该项目是对上海中原房地产公司销售数据建立数据仓库,进行数据分析和挖掘,查找最有价值客户和最有价值房源等信息。
项目大小:7人
项目时间:2004年6月-2004年12月
担任角色:数据仓库负责人
工作内容:负责后台数据仓库建立,代码的实现。包括建立处理规则,索引与分区等的实现以及ETL流程处理及调度。
开发工具:Oracle,PD,Informatica,SPSS
项目名称:天市力医药集团POC项目
项目描述:该项目是对天津天市力医药集团的销售数据进行数据分析,根据DEMO数据建立POC项目模型,根据建立的数据仓库模型进行报表分析。
项目大小:4人
项目时间:2004年7月-2004年11月
担任角色:数据仓库负责人
工作内容:负责后台数据仓库模型建立,ETL过程。
开发工具:Oracle,PD,OWB,BO
项目名称:北京星际空间科技有限公司数据库设计和优化项目
项目描述:进行数据库设计和调优,该项目是针对北京星际空间科技有限公司在全国近万家网吧的数据进行数据库设计和优化。
项目大小:3人
项目时间:2006年7月-2006年8月
担任角色:数据库工程师
工作内容:独立进行数据库的设计工作,包括性能调优,海量数据优化调优等工作。
开发工具:Oracle,Java,PD,Rose
项目名称:Novartis ETL Project
项目描述:瑞士Novartis公司大型ETL项目,对多系统,多数据源数据进行集成,综合运用了ODS和缓慢变化维度等各种复杂技术,项目周期长,处理流程复杂。
项目大小:8人
项目时间:2006年11月-2007年5月
担任角色:项目经理
工作内容:带领团队进行ETL项目设计与开发,负责与客户沟通,工程项目人员任务分配,检查等。
开发工具:SQL Server 2005,Cognos