hadoop学习-stream-Top K记录
生活随笔
收集整理的這篇文章主要介紹了
hadoop学习-stream-Top K记录
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
求海量數(shù)據(jù)中最大的K個(gè)記錄
來源于《hadoop實(shí)戰(zhàn)》(hadoop in action)(美 拉姆)第4.7章節(jié)有關(guān)stream的習(xí)題。
數(shù)據(jù)源:apat63_99.txt 專利描述數(shù)據(jù)集,包含專利號(hào)、專利申請(qǐng)年份等等信息。可從美國國家經(jīng)濟(jì)研究局獲得,網(wǎng)址為http://www.nber.org/patents
大約有290萬條記錄。
這里的腳本用的是python。
apat63_99.txt里面存有專利的各種信息,這里以第9列的專利特定專利聲明個(gè)數(shù)作為排序的key值,將最大的K條完整記錄輸出。
apat63_99.txt格式:
[plain] view plain總結(jié)
以上是生活随笔為你收集整理的hadoop学习-stream-Top K记录的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Hadoop 在关机重启后,nameno
- 下一篇: hadoop学习-倒排索引