技术标签: MapReduce
MapReduce的官网文档地址:https://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html
Hadoop MapReduce 是一个软件框架,用于轻松编写应用程序,以可靠、容错的方式在大型商用硬件集群(数千个节点)上并行处理大量数据(多TB数据集)。
一个MapReduce job 通常将输入的数据集拆分成独立的快。Map任务以完全并行的方式处理这些块。框架对map的输出进行排序,进而作为输入提供给reduce任务。通常来说,job的输入和输出都保存在一个文件系统中。框架负责调度任务,监控任务并重新执行失败了的任务。
通常来说,计算节点和存储节点是相同的,也就是说,MapReduce框架和HDFS运行在相同的节点集上。这样的配置能够保证框架在已经存在数据的节点上有效的调度任务,进而在不同集群间获得一个非常高的总带宽。
MapReduce框架由一个单一的主Resourcemanager,每个集群节点上的一个从Nodemanager以及每个应用上一个MRAppMaster组成。
应用至少会指定输入/输出位置以及通过实现合适的接口和抽象类来提供map和reduce功能。这些,以及其他job参数,组成job配置(configuration)。
然后,Hadoop job客户端提交job(jar/可执行的文件等等)以及配置ResourceManger。ResoureManger负责给从节点分发软件/配置,调度和监督任务,反馈状态和诊断信息给job客户端。
MapReduce框架完全以<键,值>形式操作,也就是说,框架将输入给job的数据视为<键,值>对,并且产生一个<键,值>对集作为job的输出。
键和值类必须通过框架序列化,因此需要实现Writable接口。除此之外,key类必须实现WritableComparable接口以辅助框架的排序。
一个MapReducejob的输入输出类型如下所示:
(输入)<k1,v1> -> map -> <k2,v2> -> combine -> <k2,v2> -> reduce -> <k3,v3>(输出)
通过一个MapReduce应用程序示例来了解它们的工作原理。
WordCount 是一个简单的应用程序,它计算给定输入集中每个单词的出现次数。
这适用于本地独立、伪分布式或完全分布式 Hadoop 安装。
源代码:
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class WordCount {
public static class TokenizerMapper
extends Mapper<Object, Text, Text, IntWritable>{
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
public void map(Object key, Text value, Context context
) throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
}
}
public static class IntSumReducer
extends Reducer<Text,IntWritable,Text,IntWritable> {
private IntWritable result = new IntWritable();
public void reduce(Text key, Iterable<IntWritable> values,
Context context
) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf, "word count");
job.setJarByClass(WordCount.class);
job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(IntSumReducer.class);
job.setReducerClass(IntSumReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}
假设环境变量的设置如下:
export JAVA_HOME=/usr/java/default
export PATH= J A V A H O M E / b i n : {JAVA_HOME}/bin: JAVAHOME/bin:{PATH}
export HADOOP_CLASSPATH=${JAVA_HOME}/lib/tools.jar
编译WordCount.java并创建一个Jar:
$ bin/hadoop com.sun.tools.javac.Main WordCount.java
$ jar cf wc.jar WordCount*.class
假如:
/user/joe/wordcount/input
- HDFS的输入目录/user/joe/wordcount/output
- HDFS的输出目录示例文本文件作为输入:
$ bin/hadoop fs -ls /user/joe/wordcount/input/
/user/joe/wordcount/input/file01
/user/joe/wordcount/input/file02$ bin/hadoop fs -cat /user/joe/wordcount/input/file01
Hello World Bye World$ bin/hadoop fs -cat /user/joe/wordcount/input/file02
Hello Hadoop Goodbye Hadoop
运行应用程序:
$ bin/hadoop jar wc.jar WordCount /user/joe/wordcount/input /user/joe/wordcount/output
输出:
$ bin/hadoop fs -cat /user/joe/wordcount/output/part-r-00000
Bye 1
Goodbye 1
Hadoop 2
Hello 2
World 2
应用程序可以通过使用选项 -files来在该任务当前工作目录下指定多个以逗号分开的路径列表。-libjars选项允许应用程序将jars添加到map和reduce的类路径中。选项-archives允许传递以逗号分开的备份作为参数。
运行带有-libjars, -files和-archives的wordcount例子:
bin/hadoop jar hadoop-mapreduce-examples-.jar wordcount -files cachefile.txt -libjars mylib.jar -archives myarchive.zip input output
其中,myarchive.zip 会解压放在“myarchive.zip”所在的路径下。
用户可以使用 # 给通过 -files 和 -archives 传递的文件和备份指定一个不同的名称。
如:
bin/hadoop jar hadoop-mapreduce-examples-.jar wordcount -files dir1/dict.txt#dict1,dir2/dict.txt#dict2 -archives mytar.tgz#tgzdir input output
其中,文件 dir1/dict.txt 和 dir2/dict.txt 可以分别被使用了#的dict1 和 dict2 的任务访问。备份文件mytar.tgz将被放置并取消归档到名为“tgzdir”的目录中。
应用程序可以通过使用选项 -Dmapreduce.map.dev、-DmapReduce.reduce.env 和 -Dyarn.app.mapreduce.am.env在命令行上分别指定映射器、reducer和应用程序主任务的环境变量。
例如如下为映射器和reducer设置环境变量 FOO_VAR=bar 和 LIST_VAR=a,b,c。
bin/hadoop jar hadoop-mapreduce-examples-<ver>.jar wordcount -Dmapreduce.map.env.FOO_VAR=bar -Dmapreduce.map.env.LIST_VAR=a,b,c -Dmapreduce.reduce.env.FOO_VAR=bar -Dmapreduce.reduce.env.LIST_VAR=a,b,c input output
WordCount应用是非常简单的。
public void map(Object key, Text value, Context context
) throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
}
Mapper通过map方法实现,在指定的textInputFormat的辅助下,一次处理一行。然后,通过StringTokenizer将行按空格拆分成字符,且输出类似<,1>的键值对。
对于给定的样例,第一个map的输出:
< Hello, 1>
< World, 1>
< Bye, 1>
< World, 1>
第二个map输出:
< Hello, 1>
< Hadoop, 1>
< Goodbye, 1>
< Hadoop, 1>
我们已经了解到了为一个给定job而衍生的很多map,在教程的后面部分将会介绍如何以一种细粒度的方式控制它们。
job.setCombinerClass(IntSumReducer.class);
WordCount 同样指定了一个合并器。因此,在基于key值排序后,每一个map的输出都会传递给本地的合并器以实现本地聚合。
第一个map的输出:
< Bye, 1>
< Hello, 1>
< World, 2>
第二个map输出:
< Goodbye, 1>
< Hadoop, 2>
< Hello, 1>
public void reduce(Text key, Iterable<IntWritable> values,
Context context
) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
Reducer通过reduce方法实现,目的是对值进行求和,也就是计算每个键出现的次数(比如,在这个例子中就是单词)
因此,job的输出为:
< Bye, 1>
< Goodbye, 1>
< Hadoop, 2>
< Hello, 2>
< World, 2>
main 方法指定job的不同方面,比如输入/输出路径(通过命令行传递),键/值类型,输入/输出格式等等。
今天小编和大家分享深度技术win7系统浏览器打不开本地html文件的原因及解决方法,相信大家都有遇到过html文件打不开,一直显示主页而不是html页面,其实很大部分是浏览器设置问题。有什么办法可以解决?针对此疑问,小编告诉大家win7浏览器打不开本地html文件解决方法。 出现上诉问题的原因有以下几种:windows7 - 1、你的html文件内的源码本身存在问题,并不能正确解析为html页面...
资源加载首屏加载用户从点击按钮开始载入网页,在他的感知中,什么时候是“加载完成”?是首屏加载,即在可见的屏幕范围内,内容展现完全,loading进度条消失。因此在H5性能优化中,一个很重要的目的就是尽可能提升这个“首屏加载”的时间,让它满足“一秒钟法则”。按需加载首先要明确,按需加载虽然能提升首屏加载的速度,但是可能带来更多的界面重绘,影响渲染性能,因此要评估具体的业务场景再做决定。L...
Android中简单的弹出菜单 这次我们使用后台代码来动态添加按钮,并关联事件。点击该按钮后弹出类似下图的菜单,点击第1个选项后,自动弹出小对话框来。 步骤如下: 1、首先添加ar
中国政府订定以2016~2020年为期的五年计划,该计划涵盖大数据、云端运算、通讯技术等项目,在政府支持下,全力冲刺发展。据日媒Sankei报道,中国政府完整政策支持,加上5G通讯、人工智能(AI)等技术席卷而来,即将迈向超级物联网(IoT)大国。目前中国都市地区每人平均持有2台手机,以现行主要通讯技术4G来说已十分足够,一旦进入万物联网的物联网(I...
前言: webstrom和idea因为是一家公司,有些功能都是很神似的Setting(Project Settings)->Code Style->General在右侧的面板中,Schema那里选择Project,在下面把Use tab character的勾选去掉
此功能是我在自己的项目中的frament里面实现的 其实很简单一:首先我们需要加入引入appcompat v7包compile 'com.android.support:appcompat-v7:25.1.0'二:继承并应用DayNight主题&lt;style name="AppTheme" parent="Theme.AppCompat.DayNight.DarkAction...
@version 27.12.2015ControlClick ( "标题", "文本", 控件ID [, 按钮 = "left" [, 点击次数 = 1 [, X 坐标 [, Y 坐标]]]] );;A glimpse at autoItRun("notepad.exe");WinWaitActive("无标题 - 记事本");Send("TT");WinClose("无标...
设计目的:设计一个八路抢答器,抢答时间为30S倒计时,抢到后,有10S的回答问题时间#include <reg52.h>#include <absacc.h>unsigned char code SEG[10]={0xc0,0xf9,0xa4,0xb0,0x99,0x92,0x82,0xf8,0x80,0x90};//数码管的断码表,共阴级unsigned char dispbuf[2]={0,0}; //显示缓冲区百十个位unsigned char flag=0; /
GateOne要求系统必须满足下面两个前提条件, (1)python:2.6+or3.2+ (2)TornadoFramework2.2+下面命令从根目录输入:这两个Linux是基本自带,查看一下有没有安装:$ python –V (来检查python版本)然后安装pip,命令:$ --no-check-certificate https://bootstr...
https://github.com/jiqing9006/hLive<!DOCTYPE html><html><head> <meta charset=utf-8 /> <title>fz-live</title> <link href="./css/video.css" rel="st...
优化分析是很多领域中都要面临的一个重要问题,求解优化问题的一般做法是:建立模型、编写算法、求解计算。常见的问题类型有线性规划、非线性规划、混合整数规划、混合整数非线性规划、二次规划等,优化算法包括人工智能算法和内点法等数学类优化方法。算法编写是一个较为复杂的过程,对于规模较大且复杂性较高的优化问题尤其如此,且同一种算法在处理不同问题时参数的设置、架构的改动相对不够便利 而GAMS作为一款功能强大的通用代数建模优化软件,能够化繁为简,避开复杂的算法编写,将使用者的目光更多地聚焦到模型上而非...
一、计算机应用技术技能 (7页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦!19.9 积分- 1 -附件 12018 年天津市中等职业学校“畅洋杯”教师技能大赛获奖名单、、 信息技信息技术类术类(一)(一)电电子商子商务务技能(技能(团团体体项项目目 共共 12 组组 24 名)名)一等一等奖奖 4 名名 选选手姓名手姓名参参赛赛学校学校崔晓旭 张明新...