SIGMOD回顾:数据库国际大咖组团来阿里,他们都说了啥?
6月15日,備受矚目的第27屆ACM SIGMOD國際數據管理學術會議在美國休斯頓落下帷幕,在SIGMOD 2018現場,阿里巴巴舉辦了主題為“數據驅動及機器學習賦能的自治數據庫系統”的Workshop,四支技術團隊聯袂為100余位國際同仁展示了“阿里數據平臺”的能力。
本次專題研討會由集團數據庫事業部高級研究員飛刀主持,內容分為兩部分,第一部分由阿里集團和阿里云的瑞萍,鳴嵩,德邁、歷下分別介紹了阿里巴巴AnalyticDB/Data Lake Analytics, PolarDB, X-DB Engine,計算平臺(包括MaxCompute,PAI,Blink和MaxGraph)等產品,如何依靠創新來解決阿里巴巴業務場景中傳統數據庫及數據處理技術難以克服的挑戰。
(阿里巴巴WORKSHOP立牌)
第二部分是邀請五位學術界知名教授作為panel discussion嘉賓,各自分享了他們在“AI+數據庫”領域的工作以及對這個領域的一些看法,這五位教授分別是:
Gustavo Alonso, Professor and ACM/IEEE Fellow, ETH Zurich
AdityaParameswaran, Assistant Professor, University of Illinois Urbana-Champaign
IhabIlyas, Professor and ACM SIGMOD Vice Chair, University of Waterloo
Tim Kraska, Associate Professor, Massachusetts Institute of Technology
Andy Pavlo, Assistant Professor, Carnegie Mellon University
(飛刀、靖人與五位教授合影)
Gustavo Alonso教授在其分享中特別提出Autonomy through Hardware的觀點,認為自治數據庫需要是模塊化的,且需要應用新硬件技術來更精細化地監控和優化整個系統,例如使用FPGA技術來監控機器學習,做安全檢查,并提控系統控制等。他還分享了基于這些技術所構建的原型系統。
AdityaParameswaran教授則風趣地以改編肯尼迪總統講話來做開篇:“Ask not what ML can do for you, but what you can do for ML.”他指出其實機器學習的處理流程是一個“很痛苦”的迭代過程,這個過程需要人工參與其中。這中間每次迭代計算的時間消耗都很大,可以通過caching和reuse部分之前的中間結果來縮減這部分消耗。同時還需要更好的技術來幫助這個流程中的用戶來理解和調整每次迭代計算。最后,他指出在AI Winter is coming之際,學術界應該考慮如何應對。
IhabIlyas教授分享了在Data Cleaning and Integration領域應用機器學習的洞見和成果。他特別指出,數據科學家在對數據做機器學習計算前,需要花費大量的時間精力來對數據做預處理,包括transformation, ETL, joining, changing formats等等。其中涉及到data curation的問題則是更具挑戰的難題,而在這些領域應用了機器學習反過來可以對機器學習的處理流程帶來巨大幫助。
TimKraska教授則提出了System for Machine Learning的觀點。如何建立一個完整的系統環境來幫助數據科學家更高效地分析處理數據是他的一個主要研究方向,包括借鑒數據庫的查詢優化器來幫助機器學習的任務找到最優的處理pipeline。另一方面,他也提出要把機器學習更深入地推到數據庫系統中來,包括之前廣受關注的其Learned Index工作在內,也將是他認為的一個主要研究方向。
Andy Pavlo教授攜去年提出的自動駕駛數據庫(Self-driving Database)研究成果,在本場研討會上更近一步闡述和明確了其Self-driving Database的涵義。不同于傳統的Auto Admin只是提供半自動化建議,真正的自治數據庫一定是一個“預測-計劃-實施-觀測-反饋再預測”的完整閉環系統。其中action實施的工程化將是重要一環。
在回答與會者的提問中,幾位教授還特別指出,數據庫和機器學習領域可以相互幫助,如數據庫可以幫助機器學習專家來完成復雜的線性代數運算,部署Machine Learning pipeline等。但同時不要試圖去強制改變現有的機器學習pipeline,而是可以在機器學習處理流程的優化和調優上提供幫助。數據庫領域的專家學者們可以借鑒大數據生態的演進發展,逐步把數據庫技術帶入機器學習中而不是強求打造一個“全能的”數據庫。最后幾位教授也對阿里巴巴在此領域的繼續貢獻充滿期盼。
此次的Workshop是集團幾個數據庫團隊和計算平臺第一次攜手共同發出聲音,不僅全面展現了阿里巴巴數據平臺能力,而且通過與學術專家的深入交流,能夠讓阿里巴巴更全面的看清數據庫領域未來發展方向,提前進行技術儲備及布局。
最后,附上幾張現場照片,讓更多同學感受下現場氛圍。
(阿里巴巴SIGMOD展臺)
(阿里巴巴WORKSHOP提示屏)
(飛刀向教授們贈送阿里公仔)
(阿里巴巴專題研討會現場)
(阿里巴巴技術同學合影)
總結
以上是生活随笔為你收集整理的SIGMOD回顾:数据库国际大咖组团来阿里,他们都说了啥?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 克隆人不只出现在科幻电影里?阿里虚拟美女
- 下一篇: 调度算法为何被阿里如此重视?