當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数学之路-分布式计算-disco(4)

發布時間：2023/11/29 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了数学之路-分布式计算-disco(4) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

第一個參數iter是一個迭代器，涉及被map函數產生的鍵和值。它們是reduce實例。

在本例中。單詞隨機被托付給不同的reduce實例。然后，要單詞同樣，處理它的reduce也同樣。可確保終于合計是正確的。

第二個參數params與map函數中一致，在此。僅簡單使用disco.util.kvgroup()來提取每一個單詞統計計數。累計計數，yield(產生)結果。

執行作業

以下開始執行作業。可使用大量參數定制作業，但通常來說。對于簡單的任務來說，僅使用當中3個就可以。除了啟動作業之外，我們還須要輸出結果。首先，我們在作業完畢前要等待，通過調用wait等待調用完畢，完畢后會返回結果。為方便起見。通過job對象調用wait及其他相關方法。

result_iterator()函數取結果文件地址列表。它被wait()函數返回，iterates(迭代)遍歷全部結果中的鍵值對。

defmap(line, params):

??? for word in line.split():

??????? yield word, 1

defreduce(iter, params):

??? from disco.util import kvgroup

??? for word, counts in kvgroup(sorted(iter)):

??????? yield word, sum(counts)

if__name__ == '__main__':

??? job =Job().run(input=["http://discoproject.org/media/text/chekhov.txt"],

??????????????????? map=map,

??????????????????? reduce=reduce)

??? for word, count inresult_iterator(job.wait(show=True)):

??????? print(word, count)

假設一切妥當。可看到作業執行，輸入從tagdata:bigtxt中讀入，這個是開始時刻創建的終于打印輸出，在job執行時，可打開（或執行disco master的端口）。查看作業的實時進程。

python count_words.py

也可在控制臺上查看作業進程，例如以下：?

DISCO_EVENTS=1 python count_words.py

正如您所示,創建一個新的迪斯科的工作是相當簡單的。你能夠在隨意數量的方面擴展這個簡單的樣例。比如,通過使用params對象包含停用詞的列表。

假設你把迪斯科分布式文件系統的數據,你能夠試試改變輸到tag://data:bigtxt。以及加上map_reader =disco.worker.task_io.chain_reader。

你能夠試著用sum_combiner(),使job更有效率。

你也能夠嘗試自己定義功能分區和讀取函數，用與map和reduce函數一樣的方式編寫，然后,你能夠試著鏈接job在一起,以便之前的job輸出成為下一個的輸入。

disco是設計得盡可能的簡單,這樣你就能夠專注于你自己的問題,而不是框架。

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

以上是生活随笔為你收集整理的数学之路-分布式计算-disco(4)的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。