胡伟 | 面向多实体人机协作消解的对比表生成自动化方法
?
眾包實體消解
實體消解(Entity Resolution,簡稱ER)旨在發現不同知識圖譜中指稱真實世界相同對象的實體。眾包實體消解(Crowd ER)在使用機器的基礎上,還使用人來完成實體消解任務。眾包實體消解的一個常見流程如下圖所示:
(Waldo: AnAdaptive Human Interface for Crowd Entity Resolution. SIGMOD 2017)
?
在眾包實體消解中,存在一系列關鍵問題亟待解決,包括:1)如何呈現一個實體消解任務?2)如何選擇合適的人來完成任務?3)如何在給定預算限制下挑選任務?等等。論文作者發現,當前研究很少關注第1個問題,即如何通過呈現一些關鍵信息(例如實體的重要屬性和取值)來幫助單個人更高效和精準地完成一個實體消解任務。
?
一個例子
論文作者關注多實體消解任務(multi-entityresolution,簡稱MER),下圖展示了一個包含3個實體的多實體消解任務,它們擁有了相似的屬性和取值,有待人來完成消解。
相關工作
基于列表的多實體消解任務呈現方式,類似于傳統搜索引擎。
基于成對的多實體消解任務呈現方式,每次僅比較兩個實體并對齊它們間的相似屬性。
考慮到屬性和取值的數量可能很多,上述兩類方法常通過生成摘要來提高人的消解效率。然而,這兩類方法對于多實體消解任務而言,也均存在一些不足。例如,由于缺乏直接對比,基于列表的方法需要人在心里記錄并比較不同實體;又如,基于成對的方法雖然能使人更加專注兩個實體的比較,但是可伸縮性差。更為重要的是,這兩類方法在形成列表或成對的過程中,會丟失實體消解結果間的傳遞性和聚類性等。
?
本文方法
論文作者提出了一種基于對比表(comparativetable)的多實體消解任務呈現方法,將實體和重要屬性分別組成表的行和列頭,并將重要取值填入表單元中。擬解決的關鍵問題是實體的屬性和取值的異構性及規模性與有限的表格呈現空間之間的矛盾。方法框架如下圖所示,包括3個主要步驟:
全體屬性匹配,包括屬性間相似度計算和屬性團生成兩個子步驟。
優良性評估,考慮了屬性團的判別性、豐富性、語義性和多樣性4個特征。
對比表生成,包括屬性團的選擇和取值的選擇兩個子步驟。
?
下圖展示了根據上述例子生成的一個多實體消解任務對比表。
實驗結果
論文作者從10個流行領域各選取了25個DBpedia實體作為種子,并通過維基百科消歧頁面為每個種子實體隨機選取2 ~ 4個Freebase、Wikidata和YAGO實體,再從中隨機選擇出10個實體構成一個多實體消解任務。共計250個任務,2500個實體,指稱804個真實世界對象。
實驗從3個方面檢驗了基于對比表的方法有效性,包括:1)全體屬性匹配的準確性;2)屬性團排序的有效性;3)通過雇傭60位研究生進行實操,從效率、精度和打分3個方面與基于列表和基于成對的兩個代表性方法進行了比較。
?
[1] Jiacheng Huang, Wei Hu*, Haoxuan Li, Yuzhong Qu. Automated Comparative Table Generation for Facilitating Human Intervention in Multi-Entity Resolution. In: ACM SIGIR Conference on Research and Development in Information Retrieval. 585–594, 2018
-- End --
實驗室介紹:南京大學萬維網軟件(Websoft)研究組在瞿裕忠教授的帶領下,長期從事知識圖譜(語義網)及相關技術的研發,研究組成員包括胡偉副教授、程龔副教授以及30余位博士和和碩士研究生,近期的研究方向主要包括:智能問答、知識融合和語義搜索。
聯系方式:胡偉,whu@nju.edu.cn,微信號:whu1982
網站:http://ws.nju.edu.cn
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的胡伟 | 面向多实体人机协作消解的对比表生成自动化方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python 文件操作中的读写模式:op
- 下一篇: 干货 | 机器学习算法在饿了么供需平衡系