hadoop(4)——用python代码结合hadoop完成一个小项目
                                                            生活随笔
收集整理的這篇文章主要介紹了
                                hadoop(4)——用python代码结合hadoop完成一个小项目
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.                        
                                mapper.py和reducer.py文件內容借鑒于如下博客: https://blog.csdn.net/marywang56/article/details/80395519
我們都知道hadoop是在java環境下完成的,但是通過hadoop-streaming這個java小程序,我們可以把python代碼放入hadoop中,然后通過stdin和stdout來進行數據的傳遞。
 (1)開啟yarn
 通過jps命令查看
 
 
 (2)查看mapper.py和reducer.py
 
(3)測試命令
 <1>
 先看hadoop.txt
 
<2>
 
 可以看見mapper把每一個字符都分割了開來
 <3>
 
 可見sort函數將字母進行排序,對應hadoop里的shuffle過程
 <4>
 
 這時可以看見模擬出了最后輸出的結果,將一樣的詞合并作為輸出
 (4)用hadoop來實現
 此時要寫好腳本,如圖:
 (5)實行腳本
 
 
 任務實行結束
 (6)查看輸出結果
 
 (7)可視化查看
 
 如圖,此運算例已經實行成功
總結
以上是生活随笔為你收集整理的hadoop(4)——用python代码结合hadoop完成一个小项目的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: hadoop(3)——yarn查看方式
- 下一篇: hadoop(5)——mrjob的使用(
