WordCount代码详解
生活随笔
收集整理的這篇文章主要介紹了
WordCount代码详解
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
本文簡要講解MapReduce實例–WordCount代碼
MapReduce應用
使用MapReduce的前提:
- 待處理的數據集可以分解成許多小的數據集
- 每一個小數據集都可以完全并行地進行處理
WordCount實例
WordCount是最簡單、最能體現MapReduce思想的程序之一,可以稱為MapReduce版Hello World,其主要功能是:統計一系列文本文件中每個單詞出現的次數。
樣例:
自定義WordCount實例并實現
理解以下代碼的關鍵是明白Map和Reduce操作的輸入數據、輸出數據是什么
import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;/** * 經過在 map 函數處理,輸出中間結果<word,1>的形式,在 reduce 函數中完成對每個單詞的詞頻統計<word, frequency> */ public class WordCount {public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {// 啟動job任務Job job = Job.getInstance();job.setJobName("WordCount");// 設置mapper類、Reducer類job.setJarByClass(WordCount.class); // 設置程序類job.setMapperClass(doMapper.class); // 設置Mapper類job.setReducerClass(doReducer.class); // 設置Reducer類// 設置Job輸出結果<key,value>的中key和value數據類型,因為結果是<單詞,個數>,所以key設置為"Text"類型,Value設置為"IntWritable"類型job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);// hdfs文件系統Path in = new Path("hdfs://localhost:9000/mr_demo/input/cust_fav"); //需要統計的文本所在位置Path out = new Path("hdfs://localhost:9000/mr_demo/output"); // 輸出文件夾不能存在// 本地文件系統。若文件在本地文件系統,則替換為以下代碼// Path in = new Path("file:///usr/local/java/data/mapreduce_demo/input/data_click"); // 用本地文件輸入// Path out = new Path("file:///usr/local/java/data/mapreduce_demo/output"); // 結果輸出到本地,文件夾不能已經存在// 設置job執行作業時輸入和輸出文件的路徑FileInputFormat.addInputPath(job, in);FileOutputFormat.setOutputPath(job, out);// 無論程序是否執行成功,均強制退出// 如果程序成功運行,返回true,則程序返回0;如果程序執行失敗,返回false,則程序返回1System.exit(job.waitForCompletion(true) ? 0 : 1);} }/** * @param KEYIN * →k1 表示每一行的起始位置(偏移量offset),Object類型 * @param VALUEIN * →v1 表示每一行的文本內容,Text類型 * @param KEYOUT * →k2 表示每一行中的每個單詞,Text類型 * @param VALUEOUT * →v2 表示每一行中的每個單詞的出現次數,固定值為1,Intwritable類型 */ static class doMapper extends Mapper<Object, Text, Text, IntWritable> {public static final IntWritable one = new IntWritable(1);// 重寫map方法,將k1,v1轉為k2,v2@Overrideprotected void map(Object key, Text value, Context context) throws IOException, InterruptedException {// 單詞分隔符為\tString[] splits = value.toString().split("\t");for(String word: splits){context.write(new Text(word), one)}} }/** * @param KEYIN * →k2 表示每一行中的每個單詞,Text類型 * @param VALUEIN * →v2 表示每一行中的每個單詞的出現次數,固定值為1,IntWritable類型 * @param KEYOUT * →k3 表示每一行中的每個單詞,Text類型 * @param VALUEOUT * →v3 表示每一行中的每個單詞的出現次數之和,IntWritable類型 */ static class doReducer extends Reducer<Text, IntWritable, Text, IntWritable> {private IntWritable result = new IntWritable();@Overrideprotected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {int sum = 0;// 遍歷集合,將集合中的數字相加for (IntWritable value : values) {sum += value.get();}result.set(sum);context.write(key, result);} }mapreduce中內置的WordCount程序位置:/usr/local/java/hadoop/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar
編譯打jar包運行
總結
以上是生活随笔為你收集整理的WordCount代码详解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MapReduce工作流理解
- 下一篇: Hadoop部署