【大数据基础】使用Maven编写第一个MapReduce程序

前面讲过了如何使用和配置Maven，那么接下来就使用Maven编写一个MapReduce程序，这里参照某视频教程中的程序进行编写。

首先在前面创建的datacount项目的src/main/java下创建一个类，基本配置如下：

以下例子来自于传智播客某视频教程：

使用MapReduce程序分析一段手机访问日志，获取对应的上行流量、下行流量和总流量，以下是日志片段：

关于日志的字段说明如下：

因此我们只需获取列序号为1，8和9的三列数据（第一列序号为0），由于包含多项数据，我们封装了一个DataBean对象来做为Mapper的输出和以及Reducer的输入、输出。

编写文件如下：

DataBean.java

package com.alanhou.hadoop.mr.dc;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import org.apache.hadoop.io.Writable;

public class DataBean implements Writable {
	private String telNo;
	private long upPayLoad;
	private long downPayLoad;
	private long totalPayLoad;
	
	//add a construct method without params, otherwise error will show up during execution
	public DataBean(){}
	
	public DataBean(String telNo, long upPayLoad, long downPayLoad) {
		this.telNo = telNo;
		this.upPayLoad = upPayLoad;
		this.downPayLoad = downPayLoad;
		this.totalPayLoad = this.upPayLoad + this.downPayLoad;
	}
	//serialize
	//Notice on type &amp; order
	public void write(DataOutput out) throws IOException {
		out.writeUTF(telNo);
		out.writeLong(upPayLoad);
		out.writeLong(downPayLoad);
		out.writeLong(totalPayLoad);
	}
	//deserialize
	public void readFields(DataInput in) throws IOException {
		this.telNo = in.readUTF();
		this.upPayLoad = in.readLong();
		this.downPayLoad = in.readLong();
		this.totalPayLoad = in.readLong();
	}
	
	@Override
	public String toString() {
		return this.upPayLoad + "\t" + this.downPayLoad + "\t" +this.totalPayLoad;
	}
	public String getTelNo() {
		return telNo;
	}
	public void setTelNo(String telNo) {
		this.telNo = telNo;
	}
	public long getUpPayLoad() {
		return upPayLoad;
	}
	public void setUpPayLoad(long upPayLoad) {
		this.upPayLoad = upPayLoad;
	}
	public long getDownPayLoad() {
		return downPayLoad;
	}
	public void setDownPayLoad(long downPayLoad) {
		this.downPayLoad = downPayLoad;
	}
	public long getTotalPayLoad() {
		return totalPayLoad;
	}
	public void setTotalPayLoad(long totalPayLoad) {
		this.totalPayLoad = totalPayLoad;
	}

}

DataCount.java

package com.alanhou.hadoop.mr.dc;

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


public class DataCount {

	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf);
		job.setJarByClass(DataCount.class);
		job.setMapperClass(DCMapper.class);
		//job.setMapOutputKeyClass(Text.class);
		//job.setMapOutputValueClass(DataBean.class);
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		
		job.setReducerClass(DCReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(DataBean.class);
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		job.waitForCompletion(true);
	}
	
	public static class DCMapper extends Mapper&lt;LongWritable, Text, Text, DataBean&gt;{

		@Override
		protected void map(LongWritable key, Text value, Mapper&lt;LongWritable, Text, Text, DataBean&gt;.Context context)
				throws IOException, InterruptedException {
			String line = value.toString();
			String[] fields = line.split("\t");
			String telNo = fields[1];
			long up = Long.parseLong(fields[8]);
			long down = Long.parseLong(fields[9]);
			DataBean bean = new DataBean(telNo, up, down);
			context.write(new Text(telNo), bean);
		}
		
	}
	
	public static class DCReducer extends Reducer&lt;Text, DataBean, Text, DataBean&gt;{

		@Override
		protected void reduce(Text key, Iterable&lt;DataBean&gt; v2s, Context context)
				throws IOException, InterruptedException {
			long upSum =0;
			long downSum =0;
			for(DataBean bean : v2s){
				upSum += bean.getUpPayLoad();
				downSum += bean.getDownPayLoad();
			}
			DataBean bean = new DataBean("", upSum, downSum);
			context.write(key, bean);
		}
		
	}

}

完成代码编写后导出jar包

在Eclipse项目上右击选择Export，然后在弹出窗口中选择JAR file：

点击Next在接下来的窗口中勾选Export all output folders for checked projects并指定导出jar包的名称和路径。点击Finish完成即可：

执行程序：
上传HTTP_20130313143750.dat文件，并启动hdfs和yarn服务。接下来上传日志文件到hdfs上并执行程序

hadoop fs -put HTTP_20130313143750.dat /data.doc
hadoop jar example.jar com.alanhou.hadoop.mr.dc.DataCount /data.doc /dataout

通过hadoop fs -cat /dataout/part-r-00000可查看执行结果如下：

注：其中的WARN信息不影响程序运行，为安装文件的编译问题，如需解决，请参考本地安装Hadoop完整笔记部分。

DataBean.java

DataCount.java

Hi，您需要填写昵称和邮箱！