目录

  • 1 深入浅出Hadoop Mahout数据挖掘实战
    1. 01.Mahout数据挖掘工具(1)

      00:43:55

深入浅出Hadoop Mahout数据挖掘实战(算法分析、项目实战、中文分词技术)

1013人在学
公众号二维码

公众号

小程序二维码

小程序

课程详情

我要提问

 

 

 

随着云计算、大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东等底层都应用hadoop。越来越多的企 业急需引入hadoop技术人才。由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。

 

Hadoop入门薪资已经达到了 8K 以上,工作1年可达到 1.2W 以上,具有2-3年工作经验的hadoop人才年薪可以达到 30万—50万 。一般需要大数据处理的公司基本上都是大公司,所以学习hadoop技术也是进大公司的捷径!

 

中关村被称为中国硅谷,这里有着一群被外界称之为程序员的IT从业者。但是一眼望去,大多数一线程序员的年龄均在20至30岁左右,40、50岁的人在这个行业内颇为罕见。为什么在国内没有“老”程序员,而在国外五六十岁仍奋斗在一线岗位的程序员比比皆是?造成这种现象的原因是多方面的。

 

 

 

 

 

课程背景:

Mahout简介

Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序

 

Mahout相关资源

Mahout主页:http://mahout.apache.org/

Mahout 最新版本0.8下载: http://mirrors.hust.edu.cn/apache/mahout/0.8/ 

使用mahout-distribution-0.8.tar.gz可试跑,源码在mahout-distribution-0.8-src.tar.gz中

Mahout 简要安装步骤:

如无需修改源代码,只是试用试跑,请无需安装maven(网上许多教程会有这个弯路,请跳过),具体可以参考以下教程

http://www.hadoopor.com/thread-983-1-1.html

如果需要能修改源代码并重新编译打包,需要安装maven,请参考如下图文教程:http://wenku.baidu.com/view/dbd15bd276a20029bd642d55.html

Mahout 专业教程 : Mahout in action http://yunpan.taobao.com/share/link/R56BdLH5O

注: 出版时间2012年, 对应mahout版本0.5, 是目前mahout最新的书籍读物。目前只有英文版,但是翻了一下,里面词汇基本都是计算机基础词汇,且配图和源代码,是适合阅读的。

IBM mahout简介: http://www.ibm.com/developerworks/cn/java/j-mahout/

注:中文版, 更新是时间为09年,但是里面对于mahout阐述较全面,推荐阅读,特别是最后的书籍清单,适合深入了解


课程介绍

本课程主要涉及以下内容的讲解:

1、Mahout数据挖掘工具 

2、Hadoop实现推荐系统的综合实战,涉及到MapReduce、Pig和Mahout的综合实战

 

课程针对人群

1、本课程适合于有一定java基础知识,对数据库和sql语句有一定了解,熟练使用linux系统的技术人员,特别适合于想换工作或寻求高薪职业的人士

2、最好有Greenplum Hadoop、Hadoop2.0、YARN、Sqoop、FlumeAvro、 Mahout等大数据基础,学习过北风课程《Greenplum 分布式数据库开发入门到精通》、《全面深入Greenplum Hadoop大数据分析平台》、《Hadoop2.0、YARN深入浅出》、《MapReduce、Hbase进阶提升》、《MapReduce、Hbase进阶提升》为最佳。


 

课程大纲

Mahout数据挖掘工具(10课时)

数据挖掘概念、系统组成

数据挖掘常用方法及算法(回归分析、分类、聚类等)

数据挖掘分析工具

Mahout支持的算法

Mahout起源和特点

Mahout安装、配置及测试

实战:Mahout K-means聚类分析

Mahout实现Canopy算法

Mahout实现分类算法

实战:Mahout逻辑回归分类预测

实战:Mahout朴素贝叶斯分类

推荐系统的概念及分类

协同过滤推荐算法概念、分类及应用

实战:实现基于Mahout的电影推荐系统

Hadoop综合实战-文本挖掘项目(7课时)

文本挖掘的概念及应用场景

项目背景

项目流程

中文分词技术

庖丁分词器的使用

MapReduce并行分词程序的设计与实现

Pig划分数据集

Mahout构建朴素贝叶斯文本分类器

模型应用-计算用户偏好类别

 

 课程总目录


评价(0) 立即评论
0/150