大数据Hadoop高性能企业专家实战课程-识艺教育-在线职业教育平台

1 大数据Hadoop高性能企业专家实战课程
1. 00.00_01_课程大纲介绍
  
  00:12:22

大数据Hadoop高性能企业专家实战课程

1011人在学

公众号

小程序

课程详情

我要提问

Hadoop是大数据处理的入门，通过学习hadoop我们可以了解到在实际的生成环境中使用大数据工具处理大规模数据问题。通过学习hadoop生态圈的相关知识，我们能够为更加深入学习大数据处理的相关知识提供一定的基础。大数据在电商、金融、电信、医疗、旅游等各个领域用途非常广泛，因为这些领域会有大量的数据需要处理，此时hadoop就成为了首要之选。
鉴于目前大数据Hadoop2.0被企业广泛使用，在实际的企业项目中需要更加深入的灵活运用,并且Hadoop 2.x是大数据平台处理的框架的基石，尤其在海量数据的存储HDFS、分布式资源管理和任务调度YARN及分布式计算框架MapReduce。然而当前众多书籍和视频教程资料中，没有一套完整的、深入浅出的、实战性操作强的一套资料，在此种情况下，结合鄙人多年实际项目经验，以项目中使用为主线，编纂筹划此套Hadoop 2.x从零基础到项目实战的课程，带领大家从零基础开始上手，到如何理解HDFS、YARN、MapReduce的使用和实际项目的分析。希望新手通过此视频课程可以快速上手Hadoop 2.x，从环境的搭建、框架的理解使用到MapReduce编程，一步一步成功进阶，也希望有基础的学员通过此套课程视频，更加深入理解Hadoop 2.x的使用与原理，做到知其然知其所以然。最后预祝每位学员都能在坚持学习的情况下成为大数据Hadoop 2.x高手。

1.课程研发环境
JDK版本： jdk7
开发工具：eclipse
Linux版本：Centos 6.5
虚拟机：VMware Workstation
Hadoop生态圈相关环境：CDH 5.3.8版本

2.内容简介
本课程涵盖了几乎所有hadoop常用的功能。hadoop是一个能够让用户轻松架构和使用的分布式计算平台，用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。Hadoop是可靠的，它维护多个工作数据副本，确保能够针对失败的节点重新分布处理；Hadoop是高效的，它以并行的方式工作，通过并行处理加快处理速度。Hadoop还是可伸缩的，能够处理 PB 级数据。此外，Hadoop依赖于社区服务器，因此它的成本比较低，任何人都可以使用。本课程通过大量练习和案例对各个知识点技能进行详细讲解。

Kiven：
专业资深讲师，12年相关项目经历，长期从事大数据相关的工作。
精通大数据技术，熟悉关系型数据库oracle10G\Mysq\DB2和GreenPlum等；精通hadoop、Hbase、HDFS、Hive、Pig、Hue、Spark等开源技术，对实时处理Storm、Spark Streaming有较深的认识，熟悉分布式计算MapReduce。非常精通数据挖掘算法和解决方案。熟悉spss\R语言\SparkMLlib\Python等挖掘工具，熟悉决策树、K-means、神经网络、Logistc线性回归、Apriori算法、协同过滤算法等。
熟悉零售、电信、移动、电力、证券、网络、物流、医疗、无线等行业。
技术实力派教员，讲课生动风趣，深得学员喜爱。

第一部分：大数据的基础介绍
1.什么是大数据？
2.大数据时代的背景
3.学术上怎么定义大数据？
4.大数据的构成
5.大数据的演进过程

第二部分：大数据带来的影响
1.大数据的关键技术
2.大数据分布式系统的构成
3.计算模式
4.大数据产业
5.大数据与云计算的关系
6.大数据和物联网的关系

第三部分：CentOS系统和Cloudera Manager安装配置
1.VMware虚拟机安装和配置
2.CentOS6.5且64位系统安装
3.简单的配置和遇到的问题
4.动手和实操
5.Cloudera Manager的离线安装

第四部分：Cloudera CDH的安装和配置及环境的测试
1.Cloudera CDH的离线安装的环境准备和配置，注意事项
2.单机版、伪分布式、真分布式介绍和区别
3.详细介绍了CDH的部署配置，遇到的问题，怎么解决
4.HDFS分布式文件系统的安装配置和测试
5.hdfs的权限配置，目录创建，目录查看等命令的使用

第五部分：开源Hadoop生态圈的介绍
1.Hadoop生态圈
2.组件功能概要
3.Cloudera Manager的介绍
4.CM的硬件监控
5.内存监控
6.硬盘监控
7.预警监控
8.集群监控

第六部分：HDFS分布式文件系统详解
1.什么是分布式文件系统HDFS
2.HDFS基本架构
3.基本概念
4.主要涉及理念
5.hdfs常用命令
6.hdfs的上传文件
7.hdfs的下载文件
8.hdfs的查看数据
9.hdfs优点和缺点
10.例子讲解

第七部分：Sqoop大数据同步工具介绍
1.Sqoop基本介绍
2.基本原理
3.应用场景
4.Sqoop和mysql的连接
5.mysql数据到HDFS
6.HDFS数据到mysql
7.关系型数据库到hive
8.hive到关系型数据库
9.Sqoop优点和缺点
10.例子讲解

第八部分：Eclipse入门使用
1.安装和配置JDK
2.Eclipse基本介绍
3.Eclipse开发
4.开发helloworld的java程序
5.Eclipse的配置

第九部分：MapReduce分布式计算框架详解
1.MapReduce基本介绍
2.为什么要用MR
3.MR是什么
4.工作原理
5.Map的原理
5.Reduce的原理
6.MR例子-单词计数
7.MR的优点和不足
8.例子讲解
9.适用场景

第十部分：Hive 数据仓库及案例
1.Hive 基本介绍
1)Hive 是什么
2)Hive 不是什么
3)Hive 结构图
4)Hive 元数据
5)Hive 和普通关系数据的异同
6)Hive 和 SQL 比较
2.Hive 命令
1)建表
2)显示表
3)修改表
4)load 数据
3.Hive 优化
1)分区概念
2)分区适用场景
3)分区例子
4)优化例子
5)优化建议方案
4.Hive 的用户自定义函数
1)UDF 函数
2)UDAF 函数
3)UDTF 函数
5.Hive 练习和案例
1)练习
2)案例讲解

第十一部分：Impala准实时分析
1.Impala基本介绍
2.技术架构
3.Impala与HIVE的关系
4.基本原理
5.优点和缺点
6.建表
7.加载数据
8.批量处理
9.常用脚本
10.和hive的性能比较
11.和oracle的对比2亿数据性能
12.和oracle的对比12亿数据性能

第十二部分：Hue页面工具详解
1.命令脚本存在的问题
2.为什么需要HUE
3.Hue基本功能
2.Home页面
3.Job Browser页面
4.File Browser页面
5.元数据页面
6.Hive查询页面
7.Impala查询页面
8.创建外部表
9.加载数据
10.查询结果

第十三部分：Hbase列数据库及应用案例
1.Hbase感性认识
1)Hbase简介
2)Hbase特点
3)HBase与RDBMS对比
4)HBase体系结构
5)Hbase常见概念
2.Hbase主要组成
1)HBase基本命令介绍
2)Zookeeper、Hmaster
3)HRegionServer、Region
4)HStore存储、Hfile
5)Hbase内部扫描RowKey的原理
6)Hbase内部读写原理
7)HBase设计原理、架构分析
8)Hadoop+HBase伸缩性（自动扩容、热部署）
9)HBase相关表结构设计（列族、列详细分析）
10)HBase主HMaster与备用HMaster间的切换原理
3.Hbase性能测试
1)测试数据
2)测试过程
3)测试结论
4)和Oracle Rac等进行对比
4.Hbase设计原则和优化
1)Hbase的RowKey设计原则
2)性能参数的设置
3)性能参数的调整
4)模型和性能优化
5.例子讲解
6.项目案例
1)HBase在小米业务的应用

第十四部分：运营商全国用户上网记录案例介绍
1.业务背景
2.难点分析
3.用户需求
4.系统部署
5.技术架构

第十五部分：大数据平台部署及案例
1.hadoop有哪几个版本
2.Hadoop版本介绍
3.CDH和Apache版本主要区别
4.集群硬件应该如何选配？
1)网络拓扑
2)内存
3)硬盘
4)CPU
5)价格
5.集群硬件应该如何选配
6.英特尔Hadoop发行版的介绍
7.英特尔功能增强
8.某省级通信运营商清帐单查询系统
9.为什么采用Hadoop解决方案
10.新清账单中心的部署方案

第十六部分：Kafka详解及应用案例
1.Kafka的基本介绍
1)什么是消息系统？
2)消息队列的分类
3)kafka的基本架构和概念
4)ZooKeeper简介和安装
2.Kafka的原理解析
1)Kafka在ZK上的存储结构
2)Producer的处理逻辑
3)Consumer的处理逻辑
4)Broker的处理逻辑
3.Kafka安装和部署
1)关闭服务
2)下载软件
3)拷贝文件
4)重启服务
5)测试功能是否能用
4.Kafka的Java应用开发
1)Producer端的实现
2)Consumer端的实现
3)程序执行演示
5.Kafka与Hadoop集成
1)Hadoop简介和配置
2)集成Kafka和Hadoop
3)例子演示
6.案例讲解

第十七部分：hadoop衍生数据处理详解例
1.ETL 数据处理介绍
1)ETL 导论
2)ETL 概念
3)ETL 逻辑架构
4)exact 方式
5)增量数据捕获方法
6)数据处理方式
7)数据转换
8)缓慢变化维处理
9)数据仓库 Update 处理
10)ETL 优点
2.Kettle 介绍
1)简介 kettle
2)安装和部署
3)运行
3.Kettle 适用
1)菜单介绍
2)转换
3)作业
4)新建 Ktr
5)新建 Kjb
6)Transformation 菜单介绍
7)Transformation
8)Job 菜单介绍
9)Job 组件介绍
4.Kettle 案例
1)案例准备
2)表准备和说明
3)作业建立过程
4)测试结果检验
5)表到文本文件
6)文本文件到表
5.JAVASCRIPT 的基本应用
6.文件 FTP 下载、上传。
7.作业调用作业、转换。
8.启动脚本说明。
9.JAVA 调用作业、转换
10.kettle 使用原则
11.kettle 练习和案例

目标一. 通过学习本课程，使学员能够了解大数据在行业的发展情况，了解大数据的理论基础知识，了解大数据的发展趋势。
目标二. 熟悉Clouders Manager的安装和部署，熟知CDH的安装配置和解决越到的问题
目标三. 熟悉Hadoop分布式文件系统，懂得hdfs分布式文件系统的使用，了解MapReduce工作原理
目标四. 熟知Hadoop集群硬件配置规划，懂得Hadoop集群配置及优化，学会如何维护和监测Hadoop集群
目标五. 学会怎么使用Sqoop连接关系数据库进行数据导入导出
目标六. 了解Hive数据仓库的开发和应用，学会Hue的web页面的数据库开发
目标七. 精通Hbase列式数据库的开发
目标八. 熟知Kafka消息队列的代码开发，知道kafka的应用场景
目标九. 熟悉大数据处理模式和应用

亮点一、从零基础开始讲起，包括大数据基础,大数据的基础架构

亮点二、以企业使用的角度讲解Hadoop 2.0的各个知识点，典型的案例模型详细讲解

亮点三、以实际操作为主，让大家对Hadoop 2.0环境、MR编写、Kafka等深层次的理解掌握

1.课程针对人群
Hadoop初学者、具有一定Linux系统、Java使用经验
系统架构师、系统分析师、高级程序员、资深开发人员。
牵涉到大数据处理的数据中心运行、规划、设计负责人。
高校、科研院所牵涉到大数据与分布式数据处理的项目负责人。
数据仓库管理人员、建模人员，分析人员和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员。

2.我该怎么学,如何才能学好这门课程，给些建议。
2.1、时间上的安排建议
本课程共30课时，如果您时间上充分，建议以每天3-4讲的进度往前学习，一定要进行操作，记笔记。
2.2、学习要求
持之以恒，每天都坚持学习（看视频、实际联系，多思考），有问题及时沟通交流解决，建议多看官方文档。
2.3、讲师建议
1.最好看完视频之后，抛开视频，独立自己去把上课中的示例写一遍，看自己是否理解，如果不正确，可以回过头看再看下视频，如果反复，达到真正理解和熟练掌握的目的。
2.对于项目实战部分，一定要自己亲自动手做一遍，不要满足听完就OK了
3.一定不要过于依赖视频，要学会看API和使用百度，学会思考，学会举一反三
4.最后祝大家学有所成

课程是属于某个特定的专业技术，掌握该技术后，你可以从事以下职位的相关工作
1、Hadoop 开发工程师
2、大数据架构工程师
3、Hadoop 运维工程师
4、大数据开发工程师
5、AI人工智能工程师

评价（0）立即评论

登录

手机号码绑定