2、运行WordCount程序
轉(zhuǎn)載:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html
單詞計(jì)數(shù)是最簡(jiǎn)單也是最能體現(xiàn)MapReduce思想的程序之一,可以稱為MapReduce版"Hello World",該程序的完整代碼可以在Hadoop安裝包的"src/examples"目錄下找到。單詞計(jì)數(shù)主要完成功能是:統(tǒng)計(jì)一系列文本文件中每個(gè)單詞出現(xiàn)的次數(shù),如下圖所示。
?
?
?
2.1 準(zhǔn)備工作
現(xiàn)在以"hadoop"普通用戶登錄"Master.Hadoop"服務(wù)器。
1)創(chuàng)建本地示例文件
首先在"/home/hadoop"目錄下創(chuàng)建文件夾"file"。
?
?
?
接著創(chuàng)建兩個(gè)文本文件file1.txt和file2.txt,使file1.txt內(nèi)容為"Hello World",而file2.txt的內(nèi)容為"Hello Hadoop"。
?
?
2)在HDFS上創(chuàng)建輸入文件夾
?
?
3)上傳本地file中文件到集群的input目錄下
?
?
2.2 運(yùn)行例子
1)在集群上運(yùn)行WordCount程序
備注:以input作為輸入目錄,output目錄作為輸出目錄。
已經(jīng)編譯好的WordCount的Jar在"/usr/hadoop"下面,就是"hadoop-examples-1.0.0.jar",所以在下面執(zhí)行命令時(shí)記得把路徑寫全了,不然會(huì)提示找不到該Jar包。
?
?
?
2)MapReduce執(zhí)行過程顯示信息
?
?
Hadoop命令會(huì)啟動(dòng)一個(gè)JVM來(lái)運(yùn)行這個(gè)MapReduce程序,并自動(dòng)獲得Hadoop的配置,同時(shí)把類的路徑(及其依賴關(guān)系)加入到Hadoop的庫(kù)中。以上就是Hadoop Job的運(yùn)行記錄,從這里可以看到,這個(gè)Job被賦予了一個(gè)ID號(hào):job_201202292213_0002,而且得知輸入文件有兩個(gè)(Total input paths to process : 2),同時(shí)還可以了解map的輸入輸出記錄(record數(shù)及字節(jié)數(shù)),以及reduce輸入輸出記錄。比如說,在本例中,map的task數(shù)量是2個(gè),reduce的task數(shù)量是一個(gè)。map的輸入record數(shù)是2個(gè),輸出record數(shù)是4個(gè)等信息。
?
2.3 查看結(jié)果
1)查看HDFS上output目錄內(nèi)容
?
?
從上圖中知道生成了三個(gè)文件,我們的結(jié)果在"part-r-00000"中。
2)查看結(jié)果輸出文件內(nèi)容
?
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的2、运行WordCount程序的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: RTSP再学习 -- 利用FFmpeg
- 下一篇: 为什么选择springcloud微服务架