《短文本数据理解(1)》一1.3 短文本理解框架
本節書摘來自華章出版社《短文本數據理解(1)》一書中的第1章,第1.3節,作者王仲遠,更多章節內容可以訪問云棲社區“華章計算機”公眾號查看
1.3 短文本理解框架
針對上述研究問題與研究現狀,本書將圍繞短文本理解的各項需求及挑戰,重點介紹顯性模型中基于概念化模型進行短文本理解中的關鍵性技術,如圖16所示。
在語義網絡層,主要是構建理解短文本所需要的額外知識源,即知識庫系統或者語義網絡。知識庫包含概念、實體、屬性和關系,當關系足夠豐富時,便構成了語義網絡,它在許多應用中的作用日漸突出。其中,知識庫中的概念和實體關系已經有較為充分的研究,因此本書主要介紹基于概率的屬性提取與推導,從而完善整個語義網絡,以支持其上的模型構建。
在概念化層,本書首先介紹利用語義網絡構建單實體概念化模型。提出一種基于典型性和點互信息(PMI)的基本層次概念化(Basiclevel Conceptualization,BLC)方法,將單實體映射到一組最能刻畫這個實體各種特征的概念上,并附著于概率值,以支持短文本概念化。基于概念化的短文本理解的目標是把短文本(如搜索引擎中的查詢關鍵字)所包含的實體映射到語義網絡中的概念上。其中需要解決的核心問題是利用短文本中有限的上下文對詞義進行消歧。利用動詞、形容詞、實體及其屬性,首先從大量的網絡語料中挖掘出它們的各種關系。再利用這些挖掘得到的知識,提出一個整體概念化模型,使用基于隨機游走的迭代算法將查詢中的詞語概念化。
利用上述兩個針對單實體以及短文本的模型,可以進一步解決基于概念化的短文本主題詞與修飾詞檢測。在短文本理解中,主題詞與修飾詞的檢測是一個非常重要的問題。然而在許多情況下,短文本(如搜索引擎中的查詢關鍵字等)并不遵守語法規則。現有方法通常基于粗粒度、領域相關,以及需要大量訓練數據。本書將介紹一種基于語義的短文本主題詞與修飾詞檢測方法。此方法首先從搜索日志中獲取大量實體級別的“主題詞修飾詞”對,然后通過概念化模型將這些實體對歸納至概念級別,最后通過這些精細且精確的帶權重的概念模式來進行主題詞與修飾詞的檢測。
此外,單實體概念化模型也能夠幫助解決基于概念化的詞相似度計算。計算兩個詞之間的相似度對很多文本分析理解相關的應用至關重要。目前,這一任務主要有兩種解決方法:基于知識的方法和基于文集的方法。然而,這些方法主要應用在單詞之間的語義相似度計算,無法擴展到多個單詞組成的多詞表達式或文本。針對此問題,本書將介紹一種基于語義網絡的詞相似度計算方法。該語義網絡基于十億級的網頁文本創建,包含百萬級的概念。本書首先闡述如何將兩個詞映射到概念空間,進而介紹一種概念聚類的方法以提高相似度度量的準確性。
在應用層,利用概念化層所構建的各個模型,可以有效應用在不同的任務中,如廣告關鍵字匹配、搜索排序、查詢推薦、短文本聚類、智能問答系統、Web表格理解等。本書選取搜索廣告應用場景,展示了一種基于概念化的海量競價關鍵字匹配技術。搜索廣告是搜索引擎的主要收入來源。廣告商以關鍵字對他們的廣告競價,而搜索引擎在競價關鍵字基礎上通過匹配用戶查詢進行相關廣告推送。由于查詢和競價關鍵字都是短文本并且不能由標準的詞袋(bagofwords)方法建模,大部分現有方法是利用用戶行為數據(例如點擊數據、會話數據等)去填補在匹配競價關鍵字與用戶查詢上的語義差距。然而這種方法卻不能處理沒有很多用戶行為數據的長尾查詢。盡管它特殊罕見,長尾查詢整體上卻占據相當大的查詢量,并且是搜索引擎收入的一個重要來源。本書將介紹一種匹配查詢和競價關鍵字的新方法。利用概率分類和大型同現網絡,把短文本概念化成一組相關概念。為了處理大量查詢和海量關鍵字,創建概念的語義索引:通過測量它們在概率空間的相似度,對于給定的查詢選擇相關的競價關鍵字。
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的《短文本数据理解(1)》一1.3 短文本理解框架的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《Abaqus GUI程序开发指南(Py
- 下一篇: 《微信小程序开发入门精要》——导读