基于内容推荐系统中的常识 [ACM暑校]
How to represent content to improve information access and build a new generation of services for user modeling and recommender systems?
1. 內容主旨
- Why? ......? 1. Why do we need intelligent information access? (為什么我們需要只能信息訪問) 2.?Why do we need content? (為什么我們需要內容) 3.?Why do we need semantics? (為什么我們需要語義)
- How? ...... 1.??How to introduce semantics? (如何介紹語義) 2.?Basics of Natural Language Processing (自然語言處理基礎) 3.?Encoding exogenous semantics,i.e. explicit semantics (編碼外部語義,如顯式語義) 4.?Encoding endogenous semantics, i.e. implicit semantics (編碼內部語義,如隱式語義)
- What? ...... 1.?Explanation of Recommendations (推薦系統的解釋) 2.?Serendipity in Recommender Systems (推薦系統的驚喜度)
2. Why?
- Why do we need intelligent information access?
由于信息負載(information overload),生理上不可能實時跟蹤信息流。
信息負載示例Challenge:為了有效地應對信息超載和有限理性,我們需要對信息流進行過濾(Filter)。因此,我們需要智能信息訪問的技術和算法。
左側:搜索引擎(信息檢索 information retrieval)成功案例;? 右側:推薦系統(信息過濾 information filter)成功案例- Why do we need content?
在推薦系統領域,其實基于內容的推薦并不是必須的。我們都知道,目前存在基于協同濾波(矩陣分解、張量分解)的推薦系統、基于內容的推薦系統、混合推薦系統等。但是,內容的存在可以補償協同濾波的劣勢,如數據稀疏性問題、
協同濾波目前存在的四大窘境: 數據稀疏性問題; 新物品推薦問題; 模型缺少透明性;糟糕的可解釋性;原因大概有以下三個方面:
(1)通俗地講,(利用社交媒體上傳播的信息等)擴展和改進用戶建模。(2)克服典型的協同過濾和矩陣分解問題。(3)因為搜索引擎不能沒有內容而工作。
- Why do we need semantics?
深層理性要求對文本內容所傳達的信息有深刻的理解。為了實現這一目標,提高用戶圖譜/畫像的質量和智能信息訪問平臺的有效性至關重要。(1)通過將物品描述與用戶興趣進行匹配而進行推薦;(2)推薦是通過將存儲在用戶畫像中的功能與要推薦的項目的功能相匹配而生成。
單純依靠文本是不可靠的,因為文本明顯存在一詞多義、文本意象等。如下所示:
單純的文本不能輔助情景理解,此時需要語義提取很明顯:(1)單純的基于內容的表示不能處理多義詞;(2)純基于內容的表示很容易將推薦系統推向兩個極端! (3)多詞的概念(同義詞),如Artificial intelligence、AI等;(4)基于內容的推薦系統是語言依賴性的(如英語、漢語、德文),然而基于語義的推薦系統是不受語言限制的。
因此,研究基于語義的推薦系統,有以下好處:
(1)In general: to improve content representation in intelligent information access platforms; (2)To avoid typical issues of
natural language representations (polysemy, synonymy, multi-word concepts, etc.) (3)To model user preferences in an effective way (4)To better understand the information spread on social media (5)To provide multilingual recommendations
3. How?
- How to introduce semantics?
如何將我們連接到我們正在尋找的信息(搜索任務)或我們想接觸的信息(建議和用戶建模任務)?(1)我們需要一些“智能”支持(作為智能信息訪問技術) (2)我們需要更好地理解和表示內容。 最根本的基礎就是自然語言處理。
- Basics of Natural Language Processing?
(1)Normalization?去掉不需要的字符/標記(如HTML/XML標記、標點符號、數字等); (2)tokenization?將文本分解為token(分詞) (3)?stopword removal?排除語義內容較少的常用詞; (4)?lemmatization?將變體形式減少為基形式,例如am、are、is->be (5)?stemming?將術語簡化為它們的“根”,例如automate(s), automatic, automation 都簡化為automat。
基本NLP處理方式對文本內容進行簡單的NLP處理后,我們需要給每個特征賦予權重,下面展示了使用TF-IDF(terms frequency – inverse document frequency ,詞頻-逆文檔頻率)進行特征權重賦值。術語的權重就是通過術語頻率權重和反比文檔頻率權重的乘積得到。
tf:術語在文檔中出現的次數;idf:取決于集合中術語的稀有性;tf-idf:隨著文檔中出現的次數和集合中術語的稀有性而增加。
后面的處理就是傳統的機器學習內容,一般通過Vector Space Model 和?Similarity between vectors進行處理。但是這種以單詞為核心的內容推薦系統性能往往不好,以為單詞難以表征內容的語義,或者說文章的內容主旨。因此,更加合理的內容使用方式,應該是關注文本概念/主旨,而并不是僅僅是關鍵詞。
- Exogenous semantics?,i.e. explicit semantics?&?Endogenous semantics, i.e. implicit semantics
語義表示 = 顯式語義 + 隱式語義; 顯式語義:基于外部知識的集成的自上而下的方法來表示內容,能夠在內容表達中提供語言、文化和背景知識。隱式語義:自下而上的方法,通過分析一個詞在普通和具體語言行為背景下的用法規則來確定該詞的含義。
- Encoding exogenous semantics,i.e. explicit semantics
(1)通過映射描述(語義概念)物品的特征引入語義;(2)通過將物品鏈接到知識圖來引入語義;
- Encoding endogenous semantics, i.e. implicit semantics
其實,我們也可以直接利用大量的內容學習單詞的表示。根據術語用法學習的語義稱為“distributional”。Distributional 假設:在類似內容中使用的術語具有相似的含義。
Distributional Semantics(分布式語義):一個詞的意思取決于它的用法,通過分析大量的文本數據語料庫,可以推斷出有關術語用法(含義)的信息。例如:Beer and wine, dog and cat share a similar meaning since they are often used in similar contexts。
context 用粒度表示分布式語義的好處在于:(1)我們可以利用數據的語料庫直接學習語言術語的語義向量空間表示;(2)輕量級語義,未正式定義;(3)高度的靈活性,每一個術語都可以用一個向量進行表示; (4)內容具有不同的粒度;?
分布式語義的弊端在于:(1)需要大量的內容進行學習;(2)這個矩陣非常的大,很難去構建(特征太多,需要去裁減)
4. What ?
- Explanation of Recommendations
可解釋性的目標:(1)透明度:解釋系統的工作原理;(2)可審查性:允許用戶告訴系統它是錯誤的;(3)說服力:說服用戶嘗試或購買;(4)真實性:提高用戶對系統的信心;(5)有效性:幫助用戶做出正確的決策;(6)效率:幫助用戶更快地做出決策; (7)滿意度:用戶增加使用或享受便利性;
- Serendipity in Recommender Systems
Serendipity = attractive + unexpected;個性化推薦是一個好事,但是千篇一律就會讓大家感到厭煩,所以驚喜度也是推薦系統需要考慮的一個因素,他可以強化用戶粘性。但是,如何在推薦過程中引入驚喜度?很明顯,語義匹配不是很好的解決方案。語義畫像可能比基于關鍵字的配置文件提供更準確的建議。
參考文獻:
Semantics-aware Recommender Systems:
C. Musto, G.Semeraro, M.de Gemmis, P. Lops. A Hybrid Recommendation Framework Exploiting Linked Open Data and Graph-based Features. UMAP 2017
Cross-language Recommender Systems:
F. Narducci, P. Basile, C. Musto, P. Lops, A. Caputo, M. de Gemmis, L. Iaquinta, G. Semeraro: Conceptbased item representations for a cross-lingual content-based recommendation process. Inf. Sci. 374: 15-31 (2016)
Explanations:
C. Musto, F. Narducci, P. Lops, M. de Gemmis, G. Semeraro: ExpLOD: A Framework for Explaining Recommendations based on the Linked Open Data Cloud. In Proc. of the 10th ACM Conference on Recommender Systems (RecSys '16). ACM, New York, NY, USA, 151-154.
Serendipity:
M. de Gemmis, P. Lops, G. Semeraro, C. Musto. An Investigation on the Serendipity Problem in Recommender Systems. Information Processing and Management, 2015 DOI: 10.1016/j.ipm.2015.06.008
總結
以上是生活随笔為你收集整理的基于内容推荐系统中的常识 [ACM暑校]的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一个25岁董事长给程序员的18条忠告
- 下一篇: 十大开源推荐系统简介 [转自oschin