OAG – WhoIsWho 同名消歧竞赛发布 | 10万元奖金双赛道
比賽鏈接:
https://www.biendata.com/competition/aminer2019/
由于論文分配算法的局限性,現有的學術系統內部存在著大量的同名論文分配錯誤;此外,每天都會有大量新論文進入系統。故如何維護作者檔案的一致性以及準確快速的將新論文分配到系統中已有的作者檔案,是現有的線上學術系統亟待解決的難題。?為了解決這一問題,北京智源人工智能研究院和AMiner聯合發布了一個大規模姓名排歧數據集OAG – WhoIsWho,據調研,該數據集是目前為止發布的人工標注數據規模最大的姓名消歧數據集(之后我們還計劃以增量的方式繼續發布更多的人工標注的姓名排歧數據集并輔以OAG-WhoIsWho系列競賽,盡請期待!)。?
同時我們也全面分析了姓名排歧任務的不同應用情景,同步開放了兩個評測任務。
任務一:論文的冷啟動消歧(Name Disambiguation from Scratch)任務描述:給定一堆擁有同名作者的論文,要求返回一組論文聚類,使得一個聚類內部的論文都是一個人的,不同聚類間的論文不屬于一個人。最終目的是識別出哪些同名作者的論文屬于同一個人。?
參考方法:解決這一問題的常用思路就是通過聚類算法,提取論文特征,定義聚類相似度度量,從而將一堆論文聚成的幾類論文,使得聚類內部論文盡可能相似,而類間論文有較大不同,最終可以將每一類論文看成屬于同一個人的論文。[1] 是一篇經典的使用聚類方法的論文,它使用了圖聚類的思想,利用論文之間的結構以及屬性關系去構建統一的概率圖,隨后通過算法估計了聚類人數K,最后使用圖聚類算法去解決問題。有些工作考慮了傳統特征的局限性,所以利用了低維語義空間的向量表示方法,通過將論文映射成低維空間的向量表示,從而基于向量使用聚類方法 [2]。
參考文獻:
[1]. Jie Tang, A.C.M. Fong, Bo Wang, and Jing Zhang. A Unified Probabilistic Framework for Name Disambiguation in Digital Library. IEEE Transaction on Knowledge and Data Engineering (TKDE), 2012, Volume 24, Issue 6, Pages 975-987.?
[2]. Yutao Zhang, Fanjin Zhang, Peiran Yao, and Jie Tang. Name Disambiguation in AMiner: Clustering, Maintenance, and Human in the Loop. In Proceedings of the Twenty-Forth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'18).
任務二:論文的增量消歧(Continuous Name Disambiguation)?任務描述:線上系統每天會新增大量的論文,如何準確快速的將論文分配到系統中已有作者檔案中,這是線上學術系統最亟待解決的問題。所以問題抽象定義為:給定一批新增論文以及系統已有的作者論文集,最終目的是把新增論文分配到正確的作者檔案中。?
參考方法:增量消歧任務與冷啟動消歧的任務不同,它是基于有一定作者檔案,然后對新增論文進行分配。所以,容易直接想到的方法就是將新增的論文與已有的作者檔案進行比較,提取合作者,單位機構或者會議期刊之間相似度的傳統特征,隨后利用svm之類的傳統分類器進行分類。還可以利用基于低維空間的向量表示方法,通過將作者與論文表示成低維向量,使用監督學習方法進行特征提取及模型訓練。?
參考文獻:
[1]. Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su. ArnetMiner: Extraction and Mining of Academic Social Networks. In Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD'2008). pp.990-998.?
[2]. Yutao Zhang, Fanjin Zhang, Peiran Yao, and Jie Tang. Name Disambiguation in AMiner: Clustering, Maintenance, and Human in the Loop. In Proceedings of the Twenty-Forth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD'18).?
[3]. Jie Tang, A.C.M. Fong, Bo Wang, and Jing Zhang. A Unified Probabilistic Framework for Name Disambiguation in Digital Library. IEEE Transaction on Knowledge and Data Engineering (TKDE), 2012, Volume 24, Issue 6, Pages 975-987.?
[4]. Xuezhi Wang, Jie Tang, Hong Cheng, and Philip S. Yu. ADANA: Active Name Disambiguation. In Proceedings of 2011 IEEE International Conference on Data Mining (ICDM'11), pages 794-803.?
[5].?https://biendata.com/competition/scholar2018/data/?
[6]. The Microsoft Academic Search Dataset and KDD Cup 2013?
[7]. Wang, F. , Li, J. , Tang, J. , Zhang, J. , & Wang, K. . (2008). Name Disambiguation Using Atomic Clusters. Web-Age Information Management, 2008. WAIM '08. The Ninth International Conference on.
我們在招聘(詳情請掃描下方二維碼)
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 報名參賽
總結
以上是生活随笔為你收集整理的OAG – WhoIsWho 同名消歧竞赛发布 | 10万元奖金双赛道的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 联想g50怎么装win10 联想G50如
- 下一篇: 入门必备!生物医学命名实体识别(BioN