数学之路-分布式计算-disco(4)
第一個參數iter是一個迭代器,涉及被map函數產生的鍵和值。它們是reduce實例。
在本例中。單詞隨機被托付給不同的reduce實例。然后,要單詞同樣,處理它的reduce也同樣。可確保終于合計是正確的。
第二個參數params與map函數中一致,在此。僅簡單使用disco.util.kvgroup()來提取每一個單詞統計計數。累計計數,yield(產生)結果。
執行作業
以下開始執行作業。可使用大量參數定制作業,但通常來說。對于簡單的任務來說 ,僅使用當中3個就可以。除了啟動作業之外,我們還須要輸出結果。首先,我們在作業完畢前要等待,通過調用wait等待調用完畢,完畢后會返回結果。為方便起見。通過job對象調用wait及其他相關方法。
result_iterator()函數取結果文件地址列表。它被wait()函數返回,iterates(迭代)遍歷全部結果中的鍵值對。
?
defmap(line, params):
??? for word in line.split():
??????? yield word, 1
?
defreduce(iter, params):
??? from disco.util import kvgroup
??? for word, counts in kvgroup(sorted(iter)):
??????? yield word, sum(counts)
?
if__name__ == '__main__':
??? job =Job().run(input=["http://discoproject.org/media/text/chekhov.txt"],
??????????????????? map=map,
??????????????????? reduce=reduce)
??? for word, count inresult_iterator(job.wait(show=True)):
??????? print(word, count)
?
本博客全部內容是原創,假設轉載請注明來源
http://blog.csdn.net/myhaspl/
假設一切妥當。可看到作業執行,輸入從tagdata:bigtxt中讀入,這個是開始時刻創建的終于打印輸出,在job執行時,可打開(或執行disco master的端口)。查看作業的實時進程。
python count_words.py
也可在控制臺上查看作業進程,例如以下:?
DISCO_EVENTS=1 python count_words.py
正如您所示,創建一個新的迪斯科的工作是相當簡單的。你能夠在隨意數量的方面擴展這個簡單的樣例。比如,通過使用params對象包含停用詞的列表。
假設你把迪斯科分布式文件系統的數據,你能夠試試改變輸到tag://data:bigtxt。以及加上map_reader =disco.worker.task_io.chain_reader。
你能夠試著用sum_combiner(),使job更有效率。
你也能夠嘗試自己定義功能分區和讀取函數,用與map和reduce函數一樣的方式編寫,然后,你能夠試著鏈接job在一起,以便之前的job輸出成為下一個的輸入。
disco是設計得盡可能的簡單,這樣你就能夠專注于你自己的問題,而不是框架。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的数学之路-分布式计算-disco(4)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 做梦梦到钓到鱼是什么征兆
- 下一篇: 学生梦到开学了是什么意思