MapReduce分析NCDC 年气象数据最低温度与最高温度
利用hadoop計算技術對采集的氣象數據信息進行處理,主要分兩個階段:mapper階段和reducer階段,mapper階段主要是對日志文件進行按行讀取并進行字符串截取,reducer階段對mapper階段傳過來的數據進行大小比較,最終獲取每一年中的最高溫度。
具體氣象數據的格式可以參考:https://blog.csdn.net/lihuinihao/article/details/38315209
1. 首先將eclipse將MaxTemperature項目打成jar包,并將jar包和氣象數據拖拽到虛擬機上。本文中分析的是1941-1950十年間的數據信息,分別存在10個文件中。
2. 在hdfs系統中新建一個名為/inputdata_t的安裝目錄
? ? ?hdfs dfs -mkdir?/inputdata_t
3.? 將數據集上傳到inputdata_t目錄下
? ? ?hdfs dfs -put ~/桌面/19* /inputdata_t
4. 切換到根目錄并對數據進行分析
? ? cd
? ? hadoop jar ~/桌面/MaxTemperature.jar MinTemperature /inputdata_t /output/mintemp
? ??
5. 查看結果
? ??hdfs dfs -cat /output/mintemp/part-r-00000
6. 下載至本地
? ? hadoop fs -get /output/mintemp/part-r-00000 /opt/hadoop-2.7.6/tmp/
? ??ls ../tmp/
7. 刪除文件
? ??hdfs dfs -rm -r /output/mintemp
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的MapReduce分析NCDC 年气象数据最低温度与最高温度的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Halcon算子学习:图像阈值分割-th
- 下一篇: 字符集和编码规范:ASCII,Unico