开源大数据周刊-2018年08月10日 第96期
資訊
- 阿里云E-MapReduce新版工作流管理正式上線
新版E-MapReduce工作流管理功能正式發布上線,工作流調度和編排是大數據開發的重要場景。此次升級新增作業DAG執行,作業臨時查詢等功能,拖拽編輯工作流節點等功能,在作業并行化縮短執行時間,提升了易用性。歡迎了解更多E-MapReduce產品詳情。
- 2018 Gartner全球云存儲魔力象限解讀:阿里云躍升至挑戰者 云存儲催熱數據湖
7月外媒披露了最新的Gartner全球云存儲魔力象限,全球前四依然是亞馬遜AWS、微軟Azure、谷歌GCP和阿里云,與去年相比最大變化是,谷歌和阿里云各自躍升了一個象限,分別躋身領導者和挑戰者象限,這是中國云計算廠商首次進入Gartner云存儲挑戰者象限。
- TensorFlow 版本 1.10.0 發布
TensorFlow 1.10 預構建二進制文件是針對 NCCL 2.2 構建的,并且在二進制安裝中不再包含 NCCL。使用多個 GPU 和 NCCL 的需要將 NCCL 升級到 2.2。
技術
- Flink 在餓了么的應用與實戰
餓了么每天處理的數據量60TB數據,400個計算節點。文章詳細介紹了Storm,SparkStreaming,Flink 3種流式計算框架在餓了么的應用優劣勢。
- 一種堆外內存緩存策略加速數據寫OSS
EMR集群中作業寫數據到OSS時,需要先將數據緩存在本地,然后再一次性上傳到OSS中。本文介紹了堆外內存緩存策略加速數據寫OSS的方法。
- 斯坦福開源Weld:高效實現數據分析的端到端優化
Weld 是斯坦福大學 DAWN 實驗室的一個開源項目,在 CIDR 2017 論文中描述了它的初始原型。Weld 用于對結合了數據科學庫和函數的現有工作負載進行優化,而無需用戶修改代碼。我們在 VLDB 2018 論文中提出了 Weld 的自適應優化器,并得出了一些可喜的結果:通過在 Weld IR 上自動應用轉換可以實現工作負載數量級的加速。消融研究表明,循環融合等優化具有非常大的影響。本文主要介紹如何使用 Weld 的自適應優化器進行數據分析的端到端優化。
- NVIDIA研究人員采用128塊Tesla V100 4小時完成40G文本訓練
近日,英偉達發表了一篇大規模語言建模的論文,他們使用 128 塊 GPU 在 4 小時內使得 mLSTM 可以收斂,值得注意的是,他們使用的 Amazon Reviews 數據集包含 40GB 的文本,這在以前通常需要花費數周的時間進行訓練。這樣的大規模語言模型能作為一種預訓練模型遷移大量的語言知識,也就是說如果將其應用到機器翻譯、機器閱讀理解和情感分析等 NLP 任務,數據需求量和計算量都能得到大幅度的降低。
總結
以上是生活随笔為你收集整理的开源大数据周刊-2018年08月10日 第96期的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【星云测试】开发者测试-采用精准测试工具
- 下一篇: js中内置对象Math()常用方法笔记