机器知道哪吒是部电影吗?解读阿里巴巴概念图谱AliCG
概念是人類認知世界的基石。比如對于“哪吒好看嗎?”,“哪吒銘文搭配建議”兩句話,人可以結合概念知識理解第一個哪吒是一部電影,第二個哪吒是王者榮耀的英雄。然而機器能理解嗎?
針對這一問題,浙江大學和阿里巴巴的算法工程師們一起提出了一種全新的自動化概念圖譜構建方法,其能夠自動的從海量文本及半結構化數據中構建細粒度的中文概念層次結構,相關技術的論文已經被國際頂會 KDD 2021 錄用。
論文標題:
AliCG: Fine-grained and Evolvable Conceptual Graph Construction for Semantic Search at Alibaba
收錄會議:
KDD 2021
論文鏈接:
https://arxiv.org/abs/2106.01686
提出的相關技術同時支持了阿里巴巴商品知識圖譜的建設,應用于細粒度商品標簽的獲取、挖掘和更新等任務。阿里巴巴商品知識圖譜擁有千億級別的實體和關系,為不同業務商品數據的組織和管理起到了重要作用,并獲得了 2020 年度錢偉長中文信息處理科學技術獎和 2020 年度 ECR 中國零售供應協會創新項目獎。
背景
概念是人類認知從具體進入抽象的第一步,也是人類認知世界的基石。概念知識圖譜是一種特殊的知識圖譜,在語義搜索、自動問答等場景具有廣泛的應用價值。例如,微軟開發了 Microsoft Concept Graph [1] 可以幫助機器更好地理解人類語言進而提升語義理解效果。網絡搜索引擎(如谷歌和必應)利用概念分類來更好地理解用戶查詢并提高搜索質量。
此外許多電商平臺(如阿里巴巴 [2] 和亞馬遜)將產品分為不同粒度的層次結構,以便客戶可以輕松地搜索和導航不同分類,找到他們想要購買的商品。然而,以往的概念圖譜構造方法 [3] 通常只從文本中抽取高頻率、粗粒度和靜態的概念實例。在實際應用中,其較難覆蓋長尾和細粒度概念信息,且存在更新困難的問題。
具體的說,以往的方法面臨以下三個挑戰:
細粒度概念獲取。不同于粗粒度概念,細粒度的概念有助于提升搜索的召回率。例如,“圍巾”是一件“服飾”,我們較難獲取“圍巾”的細粒度上級概念“保暖服飾”,這些細粒度概念很少被現有的概念圖譜所覆蓋。
長尾概念挖掘。傳統的概念抽取方法通常是基于 Hearst 模板提取概念。然而,這些方法較難從帶噪聲的開放語料中提取長尾概念。
自動概念更新。傳統的方法無法隨著時間的推移更新概念的信息。例如,“哪吒”在不同的時期有著不同的含義,可以指神話作品人物或者上映影片。因此,必須將時間演化納入概念分類體系構建中。隨著時間的變化,我們需要對齊概念圖譜中具有相同含義的節點,并估計給定實例中概念的置信度分布。
AliCG
阿里巴巴的概念圖譜 AliCG 由海量的概念核心實例、數萬的細粒度概念和概念-實例三元組組成,這些數據包括了常見的人物、地點等通用實例。
相較于傳統的知識圖譜,AliCG 包含大量中文細粒度概念,且具備自動更新、自動擴充的能力。比如對于“劉德華”這一實例,AliCG 不僅包含“香港歌手”、“演員”等傳統概念,還具有“華語歌壇不老男歌手”、“娛樂圈絕世好男人”等細粒度標簽。
如圖所示,AliCG 分為四個級別的層次結構:Level1 層由表示這些實例所屬的領域概念組成;Level2 層由實例類型或子類的概念組成;Level3 層由基礎概念組成,這些概念是實例的細粒度概念化;Instance 層包括實體和非實體短語等所有實例。
構建算法
3.1 細粒度概念獲取
這一模塊的目的是從包含噪聲的海量開放語料中提取常見的細粒度概念,然后獲取候選概念和實例,并通過概率推理和概念匹配將候選概念和實例與相應的概念聯系起來。我們定義了一組精準的模板來從高置信度的匹配查詢中利用 Bootstrapping 方法提取概念短語。例如,“十大XXX”是一種可用于提取種子概念的模式?;谶@種模式,我們可以抽取出“十大手機游戲”等概念。
3.2 長尾概念挖掘
這一模塊的目的是通過短語挖掘和自訓練從有帶噪的搜索日志中提取長尾概念。我們首先基于短語挖掘算法,并利用外部領域知識圖譜中的術語進行長尾的概念挖掘。具體來說,我們首先過濾停止詞,然后使用現成的短語挖掘工具 AutoPhrase 在無監督的情況下對語料庫進行短語挖掘。我們同時采用了一種基于自訓練的序列標注算法,用于長尾概念的挖掘,進一步提取一些分散的概念。
3.3 自動概念更新
這一模塊的目的是隨時間變化更新概念信息。我們首先將部分概念與預定義的同義詞詞典對齊。然后,我們通過通過每天的用戶搜索實例熱度計算置信度得分,并根據用戶的點擊行為來估計概念置信度分布。最后,我們將兩個不同粒度的置信度得分聯合構建實例-概念分類如下圖所示。關于構建方法的細節可以參閱我們的論文原文。
實驗與應用
我們對概念圖譜構建系統和應用做了豐富的實驗。如下圖所示,實驗結果表明,相比于傳統的概念挖掘算法,我們能夠獲得更加細粒度的概念實例三元組,且具備對長尾概念的挖掘能力。
此外,我們在還展示了 AliCG 在四種不同場景下的潛在應用案例:
(1)交互式搜索系統,“哪吒”鏈接到概念層 level3 的淺層概念,可引導用戶依據列出的概念進行實時交互,實現實體消歧,精準定位搜索內容,最終索引到“哪吒之魔童降世”內容,高層級的概念有助于幫助定位目的實例;
(2)開放式對話系統,可根據用戶給定的實例聯系概念知識圖譜,實例-概念、概念-概念之間的鏈接通路使對話更有信息量,提高交互能力;
(3)閱讀理解系統,可根據文本內容對鏈接到“李白”這一實例的概念進行置信度排序,向用戶展示最有可能的理解輸出,在這里系統根據上下文可以準確判斷“李白”并不是指代高頻概念“盛唐時期的詩人”,這說明了細粒度的概念知識圖譜對于識別精度有很大幫助;
(4)廣告推薦系統,根據用戶歷史購物信息,向中文概念圖譜中索引高層次概念實例,多個概念之間進行組合推斷,識別到“運動裝備”、“工業產品”、“用具”,可以有效向用戶推送戶外相關產品,并給出推薦理由。
(5)在商品知識圖譜中的應用,商品知識圖譜包含大量商品標簽用于描述商品,標簽基于命名實體識別和新詞發現兩條鏈路生產。商品標簽本質上也是概念,存在不同粒度的分層結構,同時也面臨著長尾標簽和更新的問題。文章提出的算法重點解決這幾個問題,我們把對應的算法模塊融到了商品知識圖譜標簽生產的流程之中。
總結與展望
在本文中,我們介紹了阿里巴巴概念圖譜的構建及應用,并提出了一種并提出一種全新的自動化概念圖譜構建方法,其能夠自動的從海量文本及半結構化數據中構建細粒度的中文概念層次結構,并把相關技術應用在了阿里巴巴商品知識圖譜中。
隨著人工神經網絡技術的不斷發展,數據驅動漸入天花板。盡管超大規模的預訓練語言模型如 GPT-3 取得了令人驚艷的效果,它仍然經常鬧笑話。數據+知識是驅動未來認知 AI 的重要路線之一。我們的方法能夠自動挖掘概念知識,并在真實場景中起到了較好的效果。
浙江大學-慕課-《知識圖譜》:
歡迎選修浙江大學《知識圖譜》開放共享慕課
請將簡歷發送至:
weidu.ch@alibaba-inc.com
參考文獻
[1] Microsoft concept graph: Mining semantic concepts for short text understanding
[2] AliCoCo: Alibaba e-commerce cognitive concept net
[3] CN-Probase: a data-driven approach for large-scale Chinese taxonomy construction
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的机器知道哪吒是部电影吗?解读阿里巴巴概念图谱AliCG的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 最高指挥官-部队经验等级详细资料(4)
- 下一篇: 电脑蓝屏怎么启动u盘重装系统 电脑蓝屏怎