mahout的安装及实验_ddjj131313的博客-程序员宅基地

技术标签: mahout  


Apache Mahout 简介
http://www.ibm.com/developerworks/cn/java/j-mahout/

 

一.安装mahout需要的软件:

1,jdk 1.6或以上 ,下载地址不提供了。

2,maven 软件项目管理工具。下载地址:http://maven.apache.org/download.html    最新版本apache-maven-3.0.4-bin.tar.gz                

3,hadoop mahout进行计算是调用的hadoop,类似hive。hadoop的版本要高,0.20会出问题,具体要多高不知道。用1.0以上的就可以。

4,mahout http://www.apache.org/dyn/closer.cgi/mahout  我用的是0.6最新版本。

 

 

二.安装

1,jdk安装,安装步骤不介绍,设置好JAVA_HOME环境变量就可以,前面最好加export,记得source。

2,maven安装,解压maven包,设置好MAVEN_HOME和bin的PATH。不需要改什么配置文件。

3,hadoop安装,参见百度。设置好HADOOP_HOME和HADOOP_CONF_DIR ,这两个必须要设置。

4,mahout安装,解压包,设置好MAHOUT_HOME和bin的PATH,其实不设置也没关系,不过要进入bin目录才能敲命令。

 

检验安装成功。

1,敲java,javac命令,有反应就行。

2,敲mvn命令,

3,hadoop fs -put和-get操作正常,wordcout程序运行正常。

4,敲mahout命令正常

 

三.测试与实验

1,保证你的hadoop 运行正常。

2,测试数据准备wget http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data      wget不了就直接下载

3,

hadoop fs -mkdir testdata             后面的运行命令 mahout会默认找这个文件名的目录。
hadoop fs -put synthetic_control.data testdata
hadoop fs -lsr testdata

4,

hadoop集群来执行聚类算法
输入mahout命令会有列出很多算法

mahout org.apache.mahout.clustering.syntheticcontrol.canopy.Job            其输入目录默认为testdata,一下都是
mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
mahout org.apache.mahout.clustering.syntheticcontrol.fuzzykmeans.Job
mahout org.apache.mahout.clustering.syntheticcontrol.dirichlet.Job
mahout org.apache.mahout.clustering.syntheticcontrol.meanshift.Job

输出默认在output下(不同的算法的结果output下目录文件是不一样的,有的带有clusters0,1,2等等):

image

其中聚类结果保存在第一个文件夹中,当然,结果是Sequence File,不能直接双击打开来看。

这貌似是查看sequence file的方法,讲hadoop hdfs中的结果导入到本地a.txt,然后查看。

                                     输入目录是hdfs的路径                       输出目录是本地路径

mahout seqdumper -s output/clusters-3-final/part-r-00000 -o /home/mahout/a.txt

 或者用mahout seqdumper  --seqFile output/data/part-m-00000直接查看

参考学习网页:

canopy聚类算法:

http://www.cnblogs.com/vivounicorn/archive/2011/10/08/2201986.html  

 K-Means聚类算法:

http://www.cnblogs.com/vivounicorn/archive/2011/10/08/2201986.html

各算法中英文对照,以及在windows xp下利用Eclipse构建Mahout:

http://www.cnblogs.com/wentingtu/archive/2011/12/22/2297496.html

这个家伙正在翻译Mahout in action这本书:

http://running.iteye.com/category/144188

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/ddjj131313/article/details/12658983

智能推荐

【PBOC卡片交易日志分析】流程_Amy_92的博客-程序员宅基地

卡片的交易流程在PBOC3.0规范 第4部分中有完整交易的流程图:这里只进行脱机数据认证部分的举例分析:SDA, DDA, fDDA. 非接q交易默认GPO响应不返回AFL,支持新的online ODA的卡片需要设置正确的DF61(第7位ODA支持位)和9F68(最后一个byte第6位)SDA:DDA:fDDA:

SequoiaDB 系列之一 :SequoiaDB的安装、部署_weixin_30477797的博客-程序员宅基地

在分析或者参与一个开源项目之前,了解项目构建的目的是有必要的。既然SequoiaDB是NoSQL数据库产品,则必然存在于传统关系型数据库相同的功能点:数据的增、删、改和查询(CRUD)。先了解怎么用,再在会用的基础上,进一步分析其实现。在上一篇中已经列出的安装环境,以及SequoiaDB的下载地址。具备以上条件之后,然后咱就行动吧。本篇文章的内容是安装和部署一个...

Hacking swing: 一个JDBC表控件模型_acoolboy1984的博客-程序员宅基地

摘要:本文是这样的一个例子,不光是利用可视化的JTable,而主要是利用隐藏在这之后的模型来开发。通过J2SE所提供的JDBC支持,你可以将一个数据库的表映射到一个Swing的表控件模型,然后用JTable将其呈现出来 编者按:SwingHacks不仅仅是视觉上的游戏,就如同本文所阐述的一样。本书的目的是使开发者能够利用Java开发出更优秀的桌面应用程序,而本文正是这样的一个例子,不光

ubuntu 搭建django 环境_weixin_30644369的博客-程序员宅基地

ubuntu 默认安装了 python2.7 。安装djangoapt install python-django;安装mysqlapt install mysql-server* *代表版本号vim /etc/mysql/mysql.conf.d/mysqld.cnf 添加 character-set-server = utf8 设置服务端编码utf8 ...

Centos安装zip_王紫又的博客-程序员宅基地_centos zip

简单粗暴sudo yum install -y unzip zipsudo yum list |grep gccsudo yum install gcc-c++sudo yum install unzip

scss值列表_Sass中的数据类型_weixin_40003512的博客-程序员宅基地

数据类型几乎在所有编程语言当中都有,在Sass中也不例外。数据类型是根据不同的用途分的类。例如2是一个数值(number),而SitePoint是一个字符串(string)。在这篇文章中,将涵盖Sass中所有的数据类型(共有七种数据类型),并且通过一些简单的例子来阐述这些数据类型在Sass中如何使用。Nullnull是Sass中最基本的数据类型,它既不是true也不是false,而表示的是空。它没...

随便推点

直流电机工作原理释义_英雄的小白的博客-程序员宅基地

一般电机转速(几千到几万rmp)比较快,需要在电机后面引入减速器例如:电机输出10000r/min 但是我们需要500r/min的转速,那么就需要1:20传动比的减速器。减速器的作用(传动比)1.降低电机速度2.提高输出扭矩减速器的分类齿轮减速器:体积较小,传递扭矩大,但是有一定的回程间隙。蜗杆减速器:具有反向自锁功能,体积较大,传动效率不高,精度不高行星齿轮减速器(精密传动):结构比较紧凑,回程间隙小、精度较高,使用寿命很长,额定输出扭矩可以做的很大,但价格略贵。...

JPA:Repeated column in mapping for entity_qq_38941327的博客-程序员宅基地

坑:这个来自新建实体类(New-..JPA entities from tables)大概会造成三种错误:一种是①标题这种,一种大意是②至少要有一个非只读的列(大意关键词non-read only,There should be one non-read-only mapping defined for the primary key field),还有一个大意是③update错误之类的。...

Android studio 导入Eclipse project 注意事项_xianwenzhang的博客-程序员宅基地

转换目录结构打开Import新用户:老用户: File-->Import Project直接找到原有的Eclipse工程单一工程直接导入即可。有库工程的需要注意,导入一定要指向主工程,而不是整个项目的目录。指向项目目录是无法进行转换的。指定目标路径这个地方需要详细说一下这里上面两个选项暂且不说,勾选上。最后一项提一下: 将Modu

RecyclerView的通用适配器_hjl343661629的博客-程序员宅基地

RecyclerView的通用适配器 本来这一个主题应该早就写了,只是项目多,属于自己的时间不多,所以现在才开动!!前一段时间写了一篇文章,是关于ListView,GriView万能适配器,没有看过的同学,可以先看看那篇文章,然后在来学习RecyclerView的话,会容易很多。链接http://www.cnblogs.com/huangjial...

【洛谷】P1372 又是毕业季I 题解_跑起来要带风!的博客-程序员宅基地

【洛谷】P1372 又是毕业季I 题解原题地址:https://www.luogu.org/problem/P1372题目背景“叮铃铃铃”,随着高考最后一科结考铃声的敲响,三年青春时光顿时凝固于此刻。毕业的欣喜怎敌那离别的不舍,憧憬着未来仍毋忘逝去的歌。1000多个日夜的欢笑和泪水,全凝聚在毕业晚会上,相信,这一定是一生最难忘的时刻!题目描述为了把毕业晚会办得更好,老师想要挑出默契程...

There are 0 datanode(s) running,解决Hadoop启动时,没有启动datanode_闷声$的博客-程序员宅基地

向Hadoop上传文件时出现错误:There are 0 datanode(s) running and no node(s) are excluded in this operation.,用jps命令查看发现datanode没有启动。解决:

推荐文章

热门文章

相关标签