英国皇家学会院士樊文飞:把大数据变小,突破企业资源限制
無論是去年李開復所言的“AI 泡沫破裂”、Yann LeCun說的“AI 公司要沒錢了”,還是今年張鈸院士提出的“深度學習觸及天花板”,亦或是圖靈獎得主Judea Pearl直指“AI 現在的重點是曲線擬合,而不是智能”,這些人工智能領域的大牛無一不在表述這樣一個觀點:人工智能需要冷思考。
“AI 目前可以幫助我們發現一些關聯關系,提高生產效率。要使 AI 進一步發揮潛力,就需要提高基礎計算引擎的效率。”英國皇家學會院士樊文飛表示,“大數據是 AI 的基礎。由于大數據計算的困難性,傳統的經典計算理論已經不能夠解決大數據的問題,需要新的理論和切實可行的技術”。
圖 | 樊文飛(中)與兩位博導Scott(左一)和Peter(右一)在英國皇家學會的合影 (來源:樊文飛)
樊文飛是國際學術界公認的在“數據庫理論與系統領域都做出突破性貢獻的極少數學者之一”。他是英國皇家學會計算機領域唯一的華裔院士(美國科學院計算機領域的華裔院士也只有姚期智一人),是在英國皇家學會具有 300 余年歷史的簽名簿上用中文簽名的第一人。他是數據庫領域歷史上僅有的兩個“大滿貫”學者之一,即獲得國際數據庫理論與系統四大頂級會議的最佳論文獎或十年最佳論文獎 (SIGMOD 2017, PODS 2015 & 2010, VLDB2010, ICDE 2007)。
盡管樊文飛從理論到實踐,從學術到科研再到產業,都有豐富的積淀和經驗,但是他很少在公共輿論環境中發表意見。據 DeepTech 了解,他已經接受了中國計算機學會(China Computer Federation,縮寫“CCF”)的邀請,將出席即將召開的中國計算機大會(China National Computer Congress,縮寫“CNCC”)并發表演講。我們就此和他進行了交流。
理論和系統的突破
“計算機研究的核心是理論和系統。”樊文飛開篇明義。
“打個比方,大家都知道 Google 的阿爾法狗(Alpha Go)打敗圍棋世界冠軍,是人工智能的一個重要里程碑。但大家也應該看到,Alpha Go 背后用到的處理資源的價值是以千萬美元計算的,研發團隊里面集聚了一大批國際頂級人才,他們的價值更是以億計算。這樣的代價和成本不是一般的企業所能承受的。”
“我們是否可以通過理論的突破到系統的落地,解決大多數企業因資源受限無力從事真正的大數據計算的現實問題?是否可以通過‘把大數據變小’,做到企業無論大小都能享受大數據分析的利益?”
“對此我們提出了有界計算理論(bounded evaluation)及數據驅動的近似計算(data-driven approximation)理論。”
有界計算理論的基本思想是,給定一個函數 F(x),參數 x 代表大數據集。多數計算不需要訪問全部的 x、只需要取 x 的一小部分就能得到 F(x)的精確解。有界計算理論研究的就是如何根據不同的函數 F,根據語義找到所需的 x 的那一小部分。
樊文飛說,“一家世界一流的公司通過測試發現,在數十億條數據的實時查詢場景下,91% 的查詢可以用有界計算來解決;并在 70% 以上的查詢中,查詢效率提升 25 倍到 14 萬倍。剩余 9% 不具備有界計算條件的查詢,可以通過數據驅動的近似計算理論來解決。”
數據驅動的近似計算是根據用戶的查詢,在數據的層次表述中動態找到所需的數據,并在有限資源下計算查詢的近似解。其特點是保證精確度,即對每個精確解,都找到一個對應的近似解使得二者之間的誤差在一定范圍內,同時每個近似解都對應一個誤差范圍內的精確解。國際上還沒有查詢系統能做到這一點。
“比如你要在北京找一個離藝術館比較近的、價格低于 500 元的旅館,在資源有限的情況下只能查看一百條數據,那么我們就可以給你一個近似的結果,可能這個旅館是 520 元,也可能是距離一個美術館比較近的旅館,但保證每個近似解都是相關的,而且每一個精確解都能被覆蓋到。”
“上面提到的這家世界一流的公司認為,有界計算是一個具有突破性的高潛力發明,并決定每年投資上千萬人民幣支持開放性的基礎研究。”樊文飛介紹,“此外,這項工作還在 2018 年拿了 Royal Society Wolfson Research Merit Award(“英國皇家學會沃爾夫森研究優秀獎”)。”
目前,一支“超級團隊”正在做“把大數據變小”這個理論的產業化落地,打造一款從理論到實現都是中國人原創的、具有實時分析能力的下一代大數據系統。這個系統將有界計算和數據驅動的近似計算疊加,突破性解決大數據計算問題,旨在將大數據從科技巨頭們的特權普及到各行各業和生活的各個方面。這支團隊有一個充滿霸氣的名字——“數據征服者”(Conquer of Data,簡稱“CoD”)。據悉,這個系統將在明年發布,CoD 團隊將在 CNCC 大會展示區展出其系統原型。
另一個理論到系統的案例是GRAPE。為提升大規模圖數據計算效率,從 2016 年開始,樊文飛著手研究并提出了兩個理論:一個是基于不動點計算的單機圖算法自動并行化的程序設計模型,另一個是同步/異步自適應并發計算模型。這些理論可以降低并行圖計算程序設計的門檻,保證計算正確性,同時可以大幅提升效率。這些工作獲得了包括 SIGMOD 和 VLDB 這些行業頂級會議上的三個獎項。
圖 | 開發GRAPE的團隊 (來源:GRAPE團隊)
基于這些理論,樊文飛的學生于文淵博士、徐靜波博士等人回國,開發了這套名為 GRAPE 的系統。他們在 2018 年 3 月 5 日成立了公司,同年 3 月 15 日就有知名企業來收購。“我們最終還是選擇了一家互聯網巨頭,因為這家公司承諾為 GRAPE 建立一個開源社區并且打造成一個中國自己的國際 IT 軟件品牌。” 據這家公司的材料披露,GRAPE 在社交關系處理、推薦、風控等應用場景都取得很好的效果,在一些業務線上,GRAPE 相比原流程甚至有數量級的性能提升。
提出原創,引領落地
什么是創新?創新包括探索新領域、發現新問題、找到新方法、或者借鑒其他領域的解決方法解決本領域的問題,這是創新程度的一個評判標準。
樊文飛說:“我們所謂的創新,關鍵不是看你發了多少論文、在哪里發表、引用率有多高。學術地位是由學術界的口碑決定的,是你能否提出基礎、原創的東西,能夠引領學術界,并在工業界落地。”
他的第三篇論文就榮獲了 2010 年 ACM PODS(Principles of Database Systems) 的“十年最佳論文獎”(ACM PODS Alberto O. Mendelzon Test-of-Time Award)。ACM PODS 始于 1982 年,是國際公認的數據庫理論頂級會議。時間檢驗獎旨在獎勵在十年間對研究、方法論及實踐產生重大影響力的論文。樊文飛是國際上屈指可數的兩獲 PODS 時間檢驗獎的學者之一。近四十年里,中國大陸被 ACM PODS 錄用的論文屈指可數。
圖 |樊文飛是國際上屈指可數的兩獲PODS時間檢驗獎的學者之一 (來源:ACM PODS)
他把這次獲獎歸結于“幸運”。但不能否認的是,堅持原創是他極具前瞻性視野的一個重要條件。他 2000 年發表的半結構化數據約束理論現在已成為一個成熟的研究領域,目前被廣泛應用在網絡數據語義描述、查詢的優化、分析、數據質量提升和數據知識獲取、知識圖譜的擴展這些業務。
把學生當做合作者
除了學者的身份之外,樊文飛還是一位導師,是愛丁堡大學主任教授。
“我在貝爾實驗室工作多年,所以我習慣把學生當做合作者,”他說,“對博士研究生來說,最難的是找題目,還有研究遇到瓶頸。導師應該幫助學生找題目,解決學生做不出的問題。在論文上,我也是合作者,要做出自己的貢獻。我的論文中,所有題目都是我提出的,技術難題我都要給出方法解決甚至自己寫證明、算法,而且經常要承擔大部分寫作。我從來沒有在我沒有做出足夠貢獻的論文上掛過名字。”
在英國讀博需要三年,不像是美國需要四到六年。就教學周期來說,樊文飛有自己的一套方法:“第一年學生幫助實現我們給出的算法,這時候他會發現一些樂趣,尤其是發表了一篇論文之后他會很興奮,會有做學問的動力;第二年他們開始設計一些算法,他們會想得更深;第三年他們開始領導一個課題,我可以給他們題目,但他們要從頭到尾去設計,解決不了的問題再來找我。這樣由淺入深,三年的時間只要認真工作,基本就可以獨立了。我帶學生的辦法就是親身參與,把學生當做合作者。”樊文飛帶出來的學生,每人都獲得過至少一個數據庫頂級會議的最佳論文獎。
樊文飛說:“在愛丁堡大學,七十多歲的老教授在圣誕假期還在學校里自己寫論文,他就是喜歡研究,享受這份樂趣,不把研究做為獲取名利的手段。所以他們能做出有價值的原創研究。”
追求興趣、保持熱情、堅持原創、鍛煉學術頭腦的靈活性,把學生當做合作者,這是老一輩學者和優秀導師們身上值得學習的東西。
圖 | 樊文飛將在CNCC上帶來“Making Big Data Small”的演講報告 (來源:CNCC大會網站)
在即將召開的 CNCC 大會上,樊文飛將為參會的近八千位計算機領域專家、企業技術人員、高校的科研人員和學生帶來“Making Big Data Small”的演講報告。當被問及他本人最感興趣的會議話題是什么,他回答說:“今年的一些技術性的論壇我都很感興趣。我們需要一些介紹最新的學術發展趨勢和自己原創的講座。國家需要腳踏實地做學問的科學家。”
總結
以上是生活随笔為你收集整理的英国皇家学会院士樊文飞:把大数据变小,突破企业资源限制的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 全球最快学术超算Frontera,也用英
- 下一篇: 八篇 NeurIPS 2019 最新图神