中国军团称霸KDD:华人博士斩获最佳论文,清华北大中科大等上榜
乾明魚羊栗子安妮一璞邊策發(fā)自凹非寺
量子位 報(bào)道公眾號 QbitAI
又一全球 AI 頂會,盡是中國力量舉杯相慶。
KDD,數(shù)據(jù)挖掘領(lǐng)域國際最高級別會議,今年在美國阿拉斯加州舉行,最佳論文及三大競賽等主要獎(jiǎng)項(xiàng),剛剛已全部揭曉。
今年,中國面孔星光璀璨。康奈爾大學(xué)華人博士 Dong Kun 以一作身份斬獲研究賽道最佳論文,初創(chuàng)公司獎(jiǎng)項(xiàng)、KDD CUP 三大賽事,也基本被中國公司包攬。
詳情傳送如下:
雙盲評審第一年,15% 接收率
KDD,國際數(shù)據(jù)挖掘與知識發(fā)現(xiàn)大會,全稱:ACM SIGKDD Conference on Knowledge Discovery and Data Mining,是數(shù)據(jù)挖掘領(lǐng)域國際最高級別會議。
自 1995 年以來,KDD 大會連續(xù)舉辦了二十余屆,每年的接收率不超過 20%,今年的接收率不到 15%。
值得一提的是,今年也是 KDD 采用雙盲評審的第一年。
依然分為研究賽道和應(yīng)用賽道。
其中,據(jù)已公開消息,KDD 研究賽道共收到 1179 篇投稿,其中111篇被接收為 Oral 論文,63 篇被接收為 Poster 論文,入選率14. 8%。
應(yīng)用賽道收到 700 余篇論文,其中大 45 篇被接收為 Oral 論文,100 篇被接收為 Poster 論文,接收率20. 7%。
相較而言,KDD 2018 年研究賽道接收 181 篇,接收率為 18.4%,應(yīng)用賽道接受 112 篇,接收率22. 5%。
強(qiáng)調(diào)論文可復(fù)現(xiàn)
而且最重要的是,KDD 今年還在投稿通知中特別強(qiáng)調(diào)——可復(fù)現(xiàn)性——且規(guī)定該項(xiàng)會作為最佳論文評選資格,論文需要額外提交內(nèi)容展示可復(fù)現(xiàn)內(nèi)容。
包括實(shí)驗(yàn)方法、經(jīng)驗(yàn)評估和結(jié)果,也鼓勵(lì)在論文中公開研究代碼和數(shù)據(jù),盡可能完整地描述論文中使用的算法和資源。
于是,KDD 2019 也成為了備受關(guān)注的一屆。
來看具體獎(jiǎng)項(xiàng)都被哪些團(tuán)隊(duì)捧走了:
研究賽道最佳論文
Network Density of States(態(tài)網(wǎng)絡(luò)密度)
https://arxiv.org/pdf/1905.09758.pdf
論文來自康奈爾大學(xué)。第一作者是 Dong Kun,康奈爾大學(xué)應(yīng)用數(shù)學(xué)專業(yè)博士生,碩士畢業(yè)于 UCLA。
其他作者還有康奈爾大學(xué)計(jì)算機(jī)系助理教授 Austin Reilley Benson 和康奈爾計(jì)算機(jī)系副教授 David Bindel,他也是 Dong Kun 的博士生導(dǎo)師。
譜分析將圖結(jié)構(gòu)與相關(guān)矩陣的特征值和特征向量聯(lián)系起來。許多譜圖理論直接來自譜幾何,通過相關(guān)微分算子的譜來研究可微分流形。但是從譜幾何到譜圖的轉(zhuǎn)換主要集中在僅涉及少數(shù)極端特征值及其相關(guān)特征值的結(jié)果上。
與幾何學(xué)不同,通過特征值的整體分布(譜密度)對圖的研究主要局限于簡單的隨機(jī)圖模型。現(xiàn)實(shí)世界圖譜的內(nèi)部仍然在很大程度上難以計(jì)算和解釋,尚未被探索研究。
在本文中,作者深入研究了真實(shí)世界圖譜的譜密度。我們借用了凝聚態(tài)物理中的研究工具能態(tài)密度,并添加了新的適應(yīng)性來處理常見圖形圖案的譜特征。所得到的方法是高效的,論文中已經(jīng)通過計(jì)算單個(gè)計(jì)算節(jié)點(diǎn)上具有超過十億個(gè)邊緣的圖的譜密度說明了這一點(diǎn)。
除了提供視覺上引人注目的圖形指紋之外,本文還展示了譜密度的估計(jì)如何推動許多常見中心度量的計(jì)算,并使用譜密度來估計(jì)有關(guān)圖結(jié)構(gòu)的有意義信息,這些信息無法只從極值本征對中推斷得出。
研究賽道第二名論文
Optimizing Impression Counts for Outdoor Advertising
https://dl.acm.org/citation.cfm?doid=3292500.3330829
這項(xiàng)研究解決的,是關(guān)于戶外廣告如何投放才最劃算的問題,作者來自墨爾本皇家理工大學(xué)、新加坡管理大學(xué)、武漢大學(xué)和華為。
具體的問題是該團(tuán)隊(duì)首次提出的,稱之為戶外廣告印象數(shù)(Impression Counts for Outdoor Advertising,ICOA)。
馬路邊的廣告那么多,但能讓你有印象的很少,大部分都忘得無影無蹤,因此,只要廣告在你腦海中留下印象,許多廣告主的目的就達(dá)到了,這項(xiàng)研究也就是關(guān)于如何讓更多人留下更深刻印象的。
由于移動互聯(lián)網(wǎng)的發(fā)達(dá),不管你用什么交通方式,開車也好,騎摩托車、自行車也好,你每次出門的軌跡都可以被記錄下來,因此研究者們找到了出行軌跡數(shù)據(jù)庫T。在此之外,還有給定的廣告牌數(shù)據(jù)庫U和廣告主的投放預(yù)算B。
因此,概括地說,戶外廣告印象數(shù)是這樣一個(gè)問題:
廣告牌和預(yù)算就那么多,路人們就那么走,在這些給定的情況下,如何提升給路人們留下的總印象,讓錢花的最值呢?
這里要解決兩個(gè)問題:
- 每塊廣告應(yīng)該讓一個(gè)路人看到幾次;
- 如何布局廣告牌的擺放,讓更多路人在出行軌跡上剛好看到最佳次數(shù)。
第一個(gè)問題此前有研究解決了,是一個(gè)S形函數(shù),隨著廣告重復(fù)次數(shù)增加,給路人留下的印象越來越深刻,之后簡單重復(fù)就沒用了,再多就只有副作用了。
而第二個(gè)問題,廣告牌分布的問題需要用算法解決。研究團(tuán)隊(duì)發(fā)現(xiàn)直接用貪心算法是不行的,于是提出了基于切線的算法計(jì)算子模塊函數(shù),為了提高效率,設(shè)計(jì)了θ終止方法和漸進(jìn)式上限估計(jì)方法進(jìn)行優(yōu)化。
最后,研究團(tuán)隊(duì)在用紐約和洛杉磯兩個(gè)城市的真實(shí)軌跡和廣告牌數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)后,驗(yàn)證這項(xiàng)研究中提出的方法是有效的。
應(yīng)用賽道最佳論文
獲得應(yīng)用賽道最佳論文的是Actions Speak Louder then Goals:Valuing Player Actions in Soccer(行動勝于目標(biāo):重視足球中球員的行動):
https://arxiv.org/pdf/1802.07127.pdf
論文的作者包括,來自比利時(shí)魯汶大學(xué)的 Tom Decroos,來自 SciSports 公司的 Lotte Bransean 和 Jesse Davis,以及比利時(shí)魯汶大學(xué)的 Jesse Davis。
評估足球運(yùn)動員在比賽中的個(gè)人行為表現(xiàn)對比賽結(jié)果的影響,是球員招募過程中的考察重點(diǎn)。然而,大多數(shù)傳統(tǒng)指標(biāo)在解決此任務(wù)時(shí)都不盡如人意,因?yàn)樗鼈円磳W⒂趩为?dú)的鏡頭畫面和目標(biāo)行為,要么不考慮球員做出某一動作的環(huán)境背景。
這篇論文主要介紹了:(1)一種用于描述球場上各個(gè)球員動作的新語言,SPADL;(2)一種根據(jù)球員表現(xiàn)對比賽結(jié)果的影響來評估球員動作的新框架,VAEP,同時(shí)考慮到動作發(fā)生時(shí)的背景。
通過匯總球員的動作價(jià)值,就可以量化他們對球隊(duì)整體進(jìn)攻和防守的貢獻(xiàn)。
這項(xiàng)研究的亮點(diǎn)在在于考慮了通常都會被忽略的動作背景信息,研究團(tuán)隊(duì)在 2016/2017 和 2017/2018 賽季的歐洲頂級賽事中用該方法收集了大量的用例。
梅西果然自成一類
應(yīng)用賽道第二名論文
這是一項(xiàng)用可穿戴設(shè)備來檢測認(rèn)知功能障礙 (可能是癡呆前兆) 的研究,由蘋果牽頭。
Developing Measures of Cognitive Impairment in the Real World from Consumer-Grade Multimodal Sensor Streams
https://dl.acm.org/citation.cfm?doid=3292500.3330690
可穿戴設(shè)備和移動計(jì)算設(shè)備,如今無處不在,并且在技術(shù)上取得了卓越的進(jìn)步;再加上傳感器歐式的多樣化,這些進(jìn)步都給持續(xù)監(jiān)測患者、監(jiān)測他們的日常活動,提供了可能。
有這樣豐富的縱向信息 (Longitudinal Informationn) 可挖掘,就能為認(rèn)知功能障礙來分析心理學(xué)和行為學(xué)上的特征,并為及時(shí)且經(jīng)濟(jì)地檢測輕度認(rèn)知功能障礙 (MCI) 提供新的途徑。
MCI,就是介于正常認(rèn)知與癡呆之間的狀態(tài)。
這項(xiàng)研究提出了一個(gè)平臺,用來遠(yuǎn)程、不侵犯地監(jiān)測認(rèn)知功能障礙的相關(guān)癥狀,只依靠幾個(gè)消費(fèi)機(jī)的智能設(shè)備。
團(tuán)隊(duì)展示了,這個(gè)平臺是怎樣在“Lilly 探索性數(shù)字評估研究”里面,收集了 16TB 的數(shù)據(jù),支持了為期 12 周的可行性研究:監(jiān)測了 31 位有認(rèn)知功能障礙的患者,和 82 位沒有認(rèn)知功能障礙的、生活狀態(tài)自由的人類。
研究人員還說明了,嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)統(tǒng)一 (Data Unification) 、時(shí)間對齊 (Time-Alignment) 以及插補(bǔ)技術(shù) (Imputation) ,是怎樣處理現(xiàn)實(shí)中固有的數(shù)據(jù)缺失,并最終展現(xiàn)了這樣的數(shù)據(jù)在分辨癥狀中發(fā)揮的作用。
時(shí)間檢驗(yàn)獎(jiǎng)
今年的時(shí)間檢驗(yàn)獎(jiǎng)(test of time award)來自 CMU 和 Nielsen BuzzMetrics,論文為:
Cost-effective outbreak detection in networks
https://www.cs.cmu.edu/~jure/pubs/detect-kdd07.pdf
之所以被評為這個(gè)獎(jiǎng),還是因?yàn)榫嚯x這篇論文在 2007 年首次發(fā)出已經(jīng)過去了 12 年,當(dāng)時(shí),CMU 的 Jure Leskovec、Andreas Krause、Carlos Guestrin、Christos Faloutsos、Jeanne VanBriesen 和 Nielsen BuzzMetrics 的 Natalie Glance6 人因?yàn)檫@篇文章獲得了最佳學(xué)生論文。
在這篇論文中,研究人員證明了,很多現(xiàn)實(shí)生活中爆發(fā)檢測(比如檢測可能性、檢測受影響人群等)表現(xiàn)出“子模塊”的特性。
研究人員利用子模塊開發(fā)出一種有效的算法,名為CELF算法,來優(yōu)化貪心算法(Greedy Algorithm)的效率。其算法如下:
結(jié)果表明,CELF 算法可以擴(kuò)展應(yīng)用到比較復(fù)雜的問題,還能接近最佳位置,同時(shí),比簡單的貪心算法快 700倍。
隨后,他們在幾個(gè)大型的真實(shí)問題上繼續(xù)對 CELF 算法進(jìn)行檢驗(yàn),利用美國國家環(huán)境保護(hù)局的水分配網(wǎng)絡(luò)模型和實(shí)時(shí)博客數(shù)據(jù),得到的傳感器位置可證明接近最優(yōu)解,提供了最優(yōu)解的常數(shù)分?jǐn)?shù)。他們還證明了這種方法可以擴(kuò)展,將存儲空間節(jié)省幾個(gè)數(shù)量級。
創(chuàng)業(yè)研究獎(jiǎng)
ACM SIGKDD 于 2017 年推出了創(chuàng)業(yè)研究獎(jiǎng),旨在鼓勵(lì)早期創(chuàng)業(yè)公司參與數(shù)據(jù)科學(xué)領(lǐng)域。該獎(jiǎng)項(xiàng)由創(chuàng)業(yè)研究獎(jiǎng)委員會從多家競爭的結(jié)果中確定。
今天獲獎(jiǎng)的四家公司分別是:Arkive、deepair、瑞萊智慧和天眼查。
Arkive 是一家利用機(jī)器學(xué)習(xí)技術(shù)管理知識和經(jīng)驗(yàn)的公司,這家公司的創(chuàng)始人是兩名華人。
deepair 為旅行供應(yīng)商提供基于 AI 的零售平臺。
瑞萊智慧是一家向企業(yè)提供工業(yè)預(yù)測性維護(hù)、工業(yè)檢測、無監(jiān)督反欺詐、人工智能系統(tǒng)攻防等服務(wù)的公司。
天眼查在國內(nèi)的知名度已經(jīng)相當(dāng)高,是一家向客戶提供企業(yè)大數(shù)據(jù)的公司。
人物獎(jiǎng)
在 KDD 的開幕式上,IBM Watson 的研究人員Charu Aggarwal因數(shù)據(jù)挖掘的終身成就獲得了 SIGKDD 的創(chuàng)新獎(jiǎng)(Innovation Award)。他還在本次會議上發(fā)表了三篇論文。
Charu Aggarwal,圖片來自 IBM 官網(wǎng)
Charu Aggarwal 于 1993 年在印度理工學(xué)校坎普爾分校獲得學(xué)士學(xué)位,之后又獲得了博士學(xué)位 1996 年到麻省理工學(xué)院工作。
他在數(shù)據(jù)挖掘領(lǐng)域開展了廣泛的工作,特別關(guān)注數(shù)據(jù)流、隱私、不確定數(shù)據(jù)和社交網(wǎng)絡(luò)分析。他已經(jīng)出版了 19 本書籍,發(fā)表 350 多篇論文,并已申請或獲得 80 多項(xiàng)專利。他獲得了多項(xiàng)發(fā)明成就獎(jiǎng),并且三次被評為 IBM 的發(fā)明大師。
同樣是來自 IBM Watson 的 Balaji Krishnapuram 獲得了 KDD 的服務(wù)獎(jiǎng)(Service Award),以獎(jiǎng)勵(lì)他對數(shù)據(jù)挖掘做出的杰出貢獻(xiàn)。
它曾在 2014 年至 2016 年擔(dān)任 ACM SIGKDD 主席,2015 年加入 IBM Watson Health,為制藥行業(yè)開發(fā) AI 解決方案。
Balaji Krishnapuram,圖片來自 Twitter 網(wǎng)友 Prithwish Chakraborty
今年的學(xué)位論文獎(jiǎng)(Dissertation Award)頒發(fā)給了來自華盛頓大學(xué)的 Tim Althoff,該獎(jiǎng)項(xiàng)第二名是來自 UIUC 的華人學(xué)者 Chao Zhang。
KDD CUP 2019
今年的 KDD CUP 有 3 個(gè)賽道:
- 常規(guī)機(jī)器學(xué)習(xí)競賽(Regular ML Track)
- 自動機(jī)器學(xué)習(xí)競賽(Auto-ML Track)
- “Research for Humanity” 強(qiáng)化學(xué)習(xí)競賽(Humanity RL Track)
這一賽事,素來有“大數(shù)據(jù)世界杯”之稱,競爭非常激烈。
KDD 官方統(tǒng)計(jì),今年有來自 39 個(gè)國家的超過 5000 個(gè)人提交了 17000 份申請。
從最終的成績中來看,中國軍團(tuán)尤為亮眼,包攬了大多數(shù)獎(jiǎng)項(xiàng)。
首先說常規(guī)機(jī)器學(xué)習(xí)競賽,由百度贊助,一共分為兩個(gè)任務(wù)。
任務(wù) 1 的冠軍和亞軍都來自中國。其中,冠軍來自螞蟻金服;亞軍來自上海微盟、趨勢科技、滴滴出行、北京郵電大學(xué)、華南理工大學(xué)、京東等單位。
任務(wù) 2 的冠軍來自日本電信公司 NTT DOCOMO,亞軍來自東南大學(xué)。
此外,額外設(shè)立的 PaddlePaddle 特別獎(jiǎng)則花落中國科學(xué)技術(shù)大學(xué)。
其次是自動機(jī)器學(xué)習(xí)競賽,由第四范式贊助。
冠軍來自中國的深蘭科技和北京大學(xué);亞軍來自新加坡國立大學(xué);第三名來自于阿里巴巴和佐治亞理工學(xué)院。
最后說“Research for Humanity” 強(qiáng)化學(xué)習(xí)競賽,由 IBM 和 Hexagon ML 贊助。
冠軍來自中國臺灣,國立成功大學(xué);亞軍來自清華大學(xué)、京東和北京航空航天大學(xué),第三名來自瓜子。
競賽詳情地址:
https://www.kdd.org/kdd2019/kdd-cup
One more thing
不止論文、競賽都被中國軍團(tuán)雄霸。
KDD 2019 贊助商方面,中國力量也格外顯眼。
百度、騰訊、滴滴、阿里巴巴、快手、浪潮和字節(jié)跳動和松鼠 AI 都出現(xiàn)在贊助名錄上。
所以也有調(diào)侃稱,AI 頂會是時(shí)候考慮在中國舉辦了,畢竟離最核心參與者都更近,還無簽證之憂。
你說呢?
— 完 —
總結(jié)
以上是生活随笔為你收集整理的中国军团称霸KDD:华人博士斩获最佳论文,清华北大中科大等上榜的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 蝴蝶效应真实存在吗?量子蝴蝶效应更令人困
- 下一篇: 三星公布全球首颗7nm EVU芯片Exy