當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

2、运行WordCount程序

發(fā)布時(shí)間：2025/3/15 编程问答 13 豆豆

生活随笔收集整理的這篇文章主要介紹了 2、运行WordCount程序小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

轉(zhuǎn)載：http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html

　　單詞計(jì)數(shù)是最簡(jiǎn)單也是最能體現(xiàn)MapReduce思想的程序之一，可以稱為MapReduce版"Hello World"，該程序的完整代碼可以在Hadoop安裝包的"src/examples"目錄下找到。單詞計(jì)數(shù)主要完成功能是：統(tǒng)計(jì)一系列文本文件中每個(gè)單詞出現(xiàn)的次數(shù)，如下圖所示。

2.1 準(zhǔn)備工作

　　現(xiàn)在以"hadoop"普通用戶登錄"Master.Hadoop"服務(wù)器。

　　1）創(chuàng)建本地示例文件

　　首先在"/home/hadoop"目錄下創(chuàng)建文件夾"file"。

　　接著創(chuàng)建兩個(gè)文本文件file1.txt和file2.txt，使file1.txt內(nèi)容為"Hello World"，而file2.txt的內(nèi)容為"Hello Hadoop"。

　　2）在HDFS上創(chuàng)建輸入文件夾

　　3）上傳本地file中文件到集群的input目錄下

2.2 運(yùn)行例子

　　1）在集群上運(yùn)行WordCount程序

　　備注：以input作為輸入目錄，output目錄作為輸出目錄。

　　已經(jīng)編譯好的WordCount的Jar在"/usr/hadoop"下面，就是"hadoop-examples-1.0.0.jar"，所以在下面執(zhí)行命令時(shí)記得把路徑寫全了，不然會(huì)提示找不到該Jar包。

　　2）MapReduce執(zhí)行過程顯示信息

　　Hadoop命令會(huì)啟動(dòng)一個(gè)JVM來(lái)運(yùn)行這個(gè)MapReduce程序，并自動(dòng)獲得Hadoop的配置，同時(shí)把類的路徑（及其依賴關(guān)系）加入到Hadoop的庫(kù)中。以上就是Hadoop Job的運(yùn)行記錄，從這里可以看到，這個(gè)Job被賦予了一個(gè)ID號(hào)：job_201202292213_0002，而且得知輸入文件有兩個(gè)（Total input paths to process : 2），同時(shí)還可以了解map的輸入輸出記錄（record數(shù)及字節(jié)數(shù)），以及reduce輸入輸出記錄。比如說，在本例中，map的task數(shù)量是2個(gè)，reduce的task數(shù)量是一個(gè)。map的輸入record數(shù)是2個(gè)，輸出record數(shù)是4個(gè)等信息。

2.3 查看結(jié)果

　　1）查看HDFS上output目錄內(nèi)容

　　從上圖中知道生成了三個(gè)文件，我們的結(jié)果在"part-r-00000"中。

　　2）查看結(jié)果輸出文件內(nèi)容

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的2、运行WordCount程序的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： RTSP再学习 -- 利用FFmpeg
下一篇：为什么选择springcloud微服务架