當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

WordCount代码详解

發布時間：2025/4/5 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了 WordCount代码详解小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文簡要講解MapReduce實例–WordCount代碼

MapReduce應用

使用MapReduce的前提：

待處理的數據集可以分解成許多小的數據集
每一個小數據集都可以完全并行地進行處理

WordCount實例

WordCount是最簡單、最能體現MapReduce思想的程序之一，可以稱為MapReduce版Hello World，其主要功能是：統計一系列文本文件中每個單詞出現的次數。

樣例：

自定義WordCount實例并實現

理解以下代碼的關鍵是明白Map和Reduce操作的輸入數據、輸出數據是什么

import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;/** * 經過在 map 函數處理，輸出中間結果<word，1>的形式，在 reduce 函數中完成對每個單詞的詞頻統計<word, frequency> */ public class WordCount {public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {// 啟動job任務Job job = Job.getInstance();job.setJobName("WordCount");// 設置mapper類、Reducer類job.setJarByClass(WordCount.class); // 設置程序類job.setMapperClass(doMapper.class); // 設置Mapper類job.setReducerClass(doReducer.class); // 設置Reducer類// 設置Job輸出結果<key,value>的中key和value數據類型，因為結果是<單詞,個數>，所以key設置為"Text"類型，Value設置為"IntWritable"類型job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);// hdfs文件系統Path in = new Path("hdfs://localhost:9000/mr_demo/input/cust_fav"); //需要統計的文本所在位置Path out = new Path("hdfs://localhost:9000/mr_demo/output"); // 輸出文件夾不能存在// 本地文件系統。若文件在本地文件系統，則替換為以下代碼// Path in = new Path("file:///usr/local/java/data/mapreduce_demo/input/data_click"); // 用本地文件輸入// Path out = new Path("file:///usr/local/java/data/mapreduce_demo/output"); // 結果輸出到本地，文件夾不能已經存在// 設置job執行作業時輸入和輸出文件的路徑FileInputFormat.addInputPath(job, in);FileOutputFormat.setOutputPath(job, out);// 無論程序是否執行成功，均強制退出// 如果程序成功運行，返回true，則程序返回0；如果程序執行失敗，返回false，則程序返回1System.exit(job.waitForCompletion(true) ? 0 : 1);} }/** * @param KEYIN * →k1 表示每一行的起始位置（偏移量offset），Object類型 * @param VALUEIN * →v1 表示每一行的文本內容，Text類型 * @param KEYOUT * →k2 表示每一行中的每個單詞，Text類型 * @param VALUEOUT * →v2 表示每一行中的每個單詞的出現次數，固定值為1，Intwritable類型 */ static class doMapper extends Mapper<Object, Text, Text, IntWritable> {public static final IntWritable one = new IntWritable(1);// 重寫map方法，將k1,v1轉為k2，v2@Overrideprotected void map(Object key, Text value, Context context) throws IOException, InterruptedException {// 單詞分隔符為\tString[] splits = value.toString().split("\t");for(String word: splits){context.write(new Text(word), one)}} }/** * @param KEYIN * →k2 表示每一行中的每個單詞，Text類型 * @param VALUEIN * →v2 表示每一行中的每個單詞的出現次數，固定值為1，IntWritable類型 * @param KEYOUT * →k3 表示每一行中的每個單詞，Text類型 * @param VALUEOUT * →v3 表示每一行中的每個單詞的出現次數之和，IntWritable類型 */ static class doReducer extends Reducer<Text, IntWritable, Text, IntWritable> {private IntWritable result = new IntWritable();@Overrideprotected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {int sum = 0;// 遍歷集合，將集合中的數字相加for (IntWritable value : values) {sum += value.get();}result.set(sum);context.write(key, result);} }

mapreduce中內置的WordCount程序位置：/usr/local/java/hadoop/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar

編譯打jar包運行

將Hadoop的classhpath信息添加到CLASSPATH變量中，在終端中增加如下幾行：

# 操作環境變量文件 sudo vim profile# 寫入以下兩行數據 export HADOOP_HOME=/usr/local/hadoop export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH# 使環境變量生效 source profile

在終端中使用javac命令編譯文件

javac WordCount.java

把.class文件打成jar包

jar -cvf WordCount.jar ./WordCount*.class

運行程序，input和output文件均在/usr/local/java/data文件夾下

/usr/local/java/data jar WordCount.jar WordCount input output

總結

以上是生活随笔為你收集整理的WordCount代码详解的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。