推荐系统之信息茧房问题
前兩篇推薦相關(guān)的文章得到了不錯(cuò)的反響,也獲得了知乎的推薦(知乎id:GarvinLi),今天來講下信息繭房,這個(gè)詞可能很多同學(xué)比較陌生,但也是推薦系統(tǒng)必須要克服的問題
什么是信息繭房
信息繭房其實(shí)是現(xiàn)在社會(huì)一個(gè)很可怕的現(xiàn)象,從字面意思來看的話其實(shí)比喻的是信息被蟲繭一般封鎖住。這個(gè)問題反映了現(xiàn)在隨著個(gè)性化推薦的普及衍射的一個(gè)社會(huì)問題。
?
平時(shí)在瀏覽新聞或者淘寶的時(shí)候,平臺(tái)會(huì)自動(dòng)根據(jù)用戶的瀏覽記錄獲取用戶的偏好,然后推送感興趣的文章。久而久之,比如用戶A是個(gè)體育迷,那么A獲取的信息大多是跟體育相關(guān)的,很難獲取音樂或者軍事等其它相關(guān)的資訊,因?yàn)槠脚_(tái)追求點(diǎn)擊率,會(huì)一直推送A感興趣的內(nèi)容以獲取高廣告瀏覽量。時(shí)間長(zhǎng)了,因?yàn)樾畔⒗O房的作用,因?yàn)樾畔@取單一,A的社交圈可能也會(huì)變的狹小。如果整個(gè)社會(huì)陷入了個(gè)性化推薦系統(tǒng)的信息繭房效應(yīng),將是病態(tài)的。
?
所以,真正的個(gè)性化推薦絕對(duì)不等于只推薦歷史感興趣的內(nèi)容,這樣其實(shí)不是一個(gè)長(zhǎng)期可持續(xù)的推薦系統(tǒng),如果陷入了信息繭房,一定會(huì)有用戶覺得審美疲勞。那么如何破解信息繭房,因?yàn)閺耐扑]模型角度分析,一旦獲取了用戶的畫像,就很難跳出用戶習(xí)慣的邏輯,比如昨天買個(gè)手機(jī),第二天還推薦手機(jī),這個(gè)時(shí)候可能比較好的一種方法是跨域推薦(cross-domain recommendation)。
跨域推薦的概念
跨域推薦做的事情就是跳出推薦的信息繭房。不是一個(gè)新概念了,我上研究生的時(shí)候?qū)W校就有實(shí)驗(yàn)室做相關(guān)的研究,今天主要講下思路。具體大家想了解的話可以看下這個(gè)Paper:?《Cross-Domain Recommendation: An Embedding and Mapping Approach》
有幾個(gè)關(guān)鍵詞我覺得可以充分體現(xiàn)跨域推薦的精髓:
“diversity” - “novelty” - “serendipity”
如果我們做一個(gè)推薦系統(tǒng),說是“individuality”,其實(shí)我會(huì)覺得很normal,不夠高級(jí),現(xiàn)在幾乎所有推薦系統(tǒng)都有個(gè)性化推薦,但是如果一個(gè)推薦系統(tǒng)標(biāo)榜自己是“novelty”,那我就覺得很有意思了。下面聊聊怎么實(shí)現(xiàn)novelty。
第一步:確定什么是target & source
這里以新聞推薦為例,如果一用戶A,經(jīng)常瀏覽同一個(gè)類型的新聞,比如體育新聞,如何找到A喜歡的其他類別新聞呢?
這其實(shí)是一個(gè)user overlap的場(chǎng)景,推薦系統(tǒng)的主體user不變,有個(gè)source源是體育新聞,要找到target是體育以外user感興趣的文章。這就建立了跨域推薦中的target和source關(guān)系。
第二步:確定推薦level
跨域推薦有多種level,要確定跨域的種類,大體可以分以下三種:
?
其實(shí)跨域推薦確定了source和target后只要確定跨域的幅度即可。
Attribute level:挖掘target間的相似屬性,推薦同一類別的target。比如一個(gè)用戶很喜歡買紅色、大尺寸的諾基亞手機(jī),attribute level推薦是要在推薦物屬性層面做跨域,可以試著給用戶推薦黑色、小尺寸的其它手機(jī),這樣的跨屬性的相同物種推薦會(huì)在一定程度上給用戶新鮮感
Type level:挖掘target間的相似屬性,然后推薦相同大品類下不同小品類的物品。比如用戶喜歡紅色、大尺寸的諾基亞手機(jī),手機(jī)和電腦都屬于電子產(chǎn)品,可以推薦紅色、大尺寸的電腦給用戶
Item level:挖掘target間的相似屬性,推薦不同大品類的物品。比如用戶喜歡紅色、大尺寸的諾基亞手機(jī),直接推薦紅色大尺寸的馬桶
以上3個(gè)跨域level由輕到重,大家可以根據(jù)自己的需求選用。其實(shí)關(guān)鍵點(diǎn)是如何挖掘物品的屬性,因?yàn)闊o論是電腦、手機(jī)、馬桶,他們都有共通的屬性,比如大小、顏色、材質(zhì)等,下面就介紹如何挖掘這些屬性。
第三步:挖掘target間的屬性
既然跨域推薦的關(guān)鍵是能挖掘出target間共有的屬性,那么有什么辦法可以做到這一點(diǎn)呢。首先要根據(jù)業(yè)務(wù)屬性人工挖掘出一些隱性特征,比如電商平臺(tái)可以挖掘出顏色、材質(zhì)、價(jià)格、使用頻率等隱性特征,然后可以通過矩陣分解的方式獲取具體每個(gè)特征的權(quán)重(下圖中矩陣A和B之間的矩陣)。
?
總結(jié)
信息繭房效應(yīng)是因?yàn)閭€(gè)性化推薦系統(tǒng)推薦信息的不平衡性,導(dǎo)致用戶長(zhǎng)期只能瀏覽限制領(lǐng)域的信息,可以在推薦系統(tǒng)中加入跨域推薦的邏輯來規(guī)避信息繭房的影響,具體流程包含確定推薦邏輯中的source和target,確定跨域的粒度,通過矩陣分解找出隱含的共性屬性。
參考:https://recsys.acm.org/wp-content/uploads/2014/10/recsys2014-tutorial-cross_domain.pdf
總結(jié)
以上是生活随笔為你收集整理的推荐系统之信息茧房问题的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 推荐系统之业务架构总览
- 下一篇: Online Learning场景下实时