王海勛被引用量最高的論文是 2003 年在 KDD 會議上發表的“Mining concept-drifting data streams using ensemble classifiers”。這篇論文提出了一個使用加權集合分類器挖掘概念漂移數據流的一般框架,經過實驗證實該篇論文中所提出的方法在預測精度方面具有優于單分類器方法的顯著優勢,并且集合框架對于各種分類模型是有效的。
唐杰的高引用論文是 2008 年在 KDD 會議上發表的“ArnetMiner: extraction and mining of academic social networks”對其負責的知識工程實驗室 ArnetMiner 系統關鍵問題進行討論,整合來自在線 Web 數據庫的出版物并提出一個概率框架來處理名稱歧義問題,除此之外,該篇論文還描述了系統的體系結構和專家畫像的主要特征,提出系統應用方法的實證評估。
Ralph Grishman 的高引用論文“A maximum entropy approach to named entity recognition”介紹了一種新的統計命名實體(即“專有名稱”)識別系統,稱為“MENE”。命名實體(NE)識別是一種信息提取形式,將文檔中的每個單詞分類為人名、組織、位置、日期、時間、貨幣價值、百分比或“以上都不是”。對互聯網搜索引擎、機器翻譯、文檔的自動索引以及作為更復雜的工作的基礎具有特別重要的意義。
周國棟高引用論文是 2002 年在 ACL 上發表的“Named entity recognition using an HMM-based chunk tagger”提出了一種隱馬爾科夫模型和一種基于該模型的模塊標記器,從中建立了一個命名實體識別系統用于識別并分類名稱、時間與數量。
Renée J. Miller 的代表性論文是 2003 年在 ICDT 上發表的“Data Exchange: Semantics and Query Answering”給出了一個代數規范,這種規范代表了可能解決方案的整個空間從而使其在數據交換問題的所有解決方案中能夠選擇通用的特殊解決方案作為問題的解決方法。
Felix Naumann 的高引用論文是 2005 年在 ICDE 上發表的“Schema Matching Using Duplicates”展示了利用數據集中重復項的存在來自動識別匹配的屬性,論文中介紹的算法能夠通過比較重復記錄中的數據識別相應的屬性,經過驗證已經證實了該方法的有效性。
Roberto Navigli 2013年在ACM上發表的論文的高引論文“BabelNet: The automatic construction,evaluation and application of a wide-coverage multilingual semantic network”,提出了構建BabelNet的自動方法,一個覆蓋廣泛的大型多語言語義網絡。
Diego Calvanese 的高引用論文是 2007 年發表的“Tractable Reasoning and Efficient Query Answering in Description Logics: The DL-Lite Family”提出了一個新的專門用于捕捉本體語言同時保持低推理復雜度的描述邏輯系列 DL-Lite。
S?ren Auer2007 年發表于 ISWC 的“DBpedia: a nucleus for a web of open data”和 2009年發表的“DBpedia - A crystallization point for the Web of Data”介紹了 DBpedia 的工作原理。
孫茂松的高引論文是 2018 年發表于 AAAI 的“Neural Knowledge Acquisition via Mutual Attention Between Knowledge Graph and Text”,提出了一個關于知識獲取的通用聯合表示框架,用于知識圖完成(KGC)和文本關系提取(RE)這兩個任務。