“猜你喜欢” — 浅谈内容分发中的推荐系统
本文為PMCAFF專欄作者趙知了出品
為什么抖音刷起來停不下來?
為什么網(wǎng)易云音樂總能推薦我喜歡的?
你的愛好和口味系統(tǒng)到底是怎么猜到的?
內(nèi)容推薦是一個較為復(fù)雜的模塊,這篇文章先簡單聊聊基于個性化推薦的內(nèi)容分發(fā)系統(tǒng)。整體分成五部分,基于之前工作總結(jié)和網(wǎng)上內(nèi)容參考,越寫越啰嗦,見諒。
目錄
內(nèi)容推薦與增長
推薦算法的商業(yè)價值
興趣偏好
認(rèn)識推薦算法
從零到一搭建推薦算法
后記?
1
內(nèi)容推薦與增長
聊個性化推薦,必須聊到今日頭條。今日頭條的崛起開始,標(biāo)志著基于用戶個性化的內(nèi)容推薦模式成為內(nèi)容分發(fā)不可忽視的力量。
那頭條是如何彎道超車,一舉成為信息分發(fā)領(lǐng)域的巨無霸呢?首先我們先回顧之前各大新聞客戶端、門戶是如何組織分發(fā)內(nèi)容的。
編輯生產(chǎn)內(nèi)容——APP/門戶展示內(nèi)容——用戶閱讀內(nèi)容
評價產(chǎn)品,既要看它所帶來的用戶價值,又要看它能產(chǎn)生的商業(yè)價值。以新浪搜狐為代表的的新聞客戶端門的商業(yè)價值是什么?
廣告
互聯(lián)網(wǎng)廣告主要分成三種業(yè)務(wù)形式,CPC(按用戶點擊付費)、CPM(按展示付費)、CPA(按行為付費)。這意味著用戶在App上停留時間越長、越活躍,越有可能帶來更多的品牌曝光和廣告點擊。最終為 App 帶來利潤。
因此新聞客戶端的商業(yè)模式和核心目標(biāo)也就清晰了:生產(chǎn)更多的內(nèi)容,讓用戶更持久的留在平臺中。
如圖,這一個合理的、正向的循環(huán)。然而在頭條看來,這個模式依然有不足。不足是什么?
回歸本質(zhì),平臺內(nèi)容是否有效的滿足了用戶。這里包含兩層意思,一是用戶本身訴求是否滿足;另一層是這種滿足是否覆蓋了足夠多的用戶。
首先,先分析第一點:用戶本身訴求是否滿足?
我們思考用戶需求的是什么?用戶們在讀什么?在讀信息。那信息到底是什么?兩方對此都有不同的理解,而這種理解決定了發(fā)展方向的不同。新浪們認(rèn)為,信息就是有價值的內(nèi)容,就是新聞。頭條認(rèn)為,信息就是值得閱讀的內(nèi)容。
兩者有什么差異?
1.對可讀信息的理解不同
新浪認(rèn)為,可讀信息即是有價值的新聞。一條信息是否有價值,能被稱之為新聞,由資深編輯們主導(dǎo),展示由平臺來決定。
頭條認(rèn)為,可讀信息就是用戶感興趣的內(nèi)容。有大眾生產(chǎn),也由大眾消費。用戶個體主觀、獨立決定是否對這條信息感興趣。
這兩種決策思路,使新浪們的信息總量對單個用戶來說是相對固定的。而對頭條的單個用戶來說,信息總量無限多。
2.信息生產(chǎn)成本不同
新浪們,雇傭編輯生產(chǎn)內(nèi)容,保證了內(nèi)容質(zhì)量,但成本相對高;今日頭條,將內(nèi)容生產(chǎn)權(quán)和消費權(quán)交給更廣闊的用戶,自己做好平臺的內(nèi)容分發(fā)工作就可以。成本遠(yuǎn)低于新浪。
3.最重要的,面向用戶群不同
新浪們,面向?qū)?nèi)容質(zhì)量有一定要求,且訴求明確的群體;今日頭條面向?qū)π畔⒃V求處于初級階段,對信息質(zhì)量和標(biāo)準(zhǔn)要求不高的群體。這部分群體更廣大。
基于個性化的推薦系統(tǒng),頭條內(nèi)容池也可以在同一個內(nèi)容列表頁有效滿足了長尾用戶的多樣性需求。
準(zhǔn)確的產(chǎn)品定位,有效的滿足訴求,廣闊的增長空間,這是我們在談個性化推薦給頭條帶來巨大增長時所需要了解的宏觀條件,如果這些條件不具備,無論多完善的推薦系統(tǒng)也發(fā)揮不出巨大能量。頭條增長模式值得研究,但可以肯定的是,增長時系統(tǒng)工程,不存在一招通殺。重視個性化推薦,但也不用過分神化。
2
商業(yè)價值
談商業(yè)價值,結(jié)合實際,以我做過的醫(yī)美項目為例,醫(yī)美App的盈利模式是什么?
1.引導(dǎo)用戶下單,從訂單中抽傭;
2.引導(dǎo)商戶投放社區(qū)廣告,從效果中獲益。
先談第一點,對醫(yī)美用戶來說,從對某個項目感興趣到下單,需要非常長的決策周期(平均3-4周)。對平臺來說,用戶決策時間越短,越有利于促進(jìn)訂單轉(zhuǎn)化,從而獲利。
那如何縮短用戶決策時間呢?
醫(yī)美,全稱醫(yī)療美容。是一個新興產(chǎn)業(yè),需要進(jìn)行大量用戶教育工作。同時有很多醫(yī)美用戶或商家在平臺內(nèi)寫了大量整容日記。這些日記具有用戶真實案例和科普雙重作用,有效降低用戶抵觸心理,消解擔(dān)心。對幫助用戶決策非常有效。因此需要向這些用戶推薦與他們相關(guān)的內(nèi)容,有利于提升整體訂單轉(zhuǎn)化率,從而提高企業(yè)利潤。
再說第二點,醫(yī)美項目間區(qū)別很大,不同用戶對項目內(nèi)容訴求差異非常大。一個想割雙眼皮的用戶很大概率對隆鼻沒什么興趣。
所以隆鼻商家廣告展示給雙眼皮用戶沒有任何價值。這種低效地投放展示對平臺造成資源浪費,對用戶來說體驗差,商家也不會買賬,這是三方都是一個多輸局面。因此提升廣告投放的準(zhǔn)確性,成了多方訴求和趨勢。
互聯(lián)網(wǎng)產(chǎn)品是信息的集合,它最大的作用是信息分發(fā),而推薦系統(tǒng)正式這個訴求下最重要影響最深遠(yuǎn)的解決方案。它兼顧每個用戶,讓信息傳遞更公平、更有效率,這即是它最大的商業(yè)價值和用戶價值。
3
興趣偏好
了解推薦算法之前,首先我們認(rèn)識一個詞——“用戶偏好”,又稱“感興趣的 xx”。
偏好是什么?是傾向性。用戶偏好指的就是用戶對某一事物的傾向性。
假設(shè)你喜歡吃冰淇淋,那么在超市琳瑯滿目的商品中,你一定會多看冰淇淋一眼,也有可能指著冰淇淋問價格,還有可能會挑挑選選然后購買,甚至再來一根。互聯(lián)網(wǎng)產(chǎn)品挖掘用戶偏好的方法簡單來說也是如此。
我們都知道無論是網(wǎng)頁還是APP,用戶在網(wǎng)上的任何操作都會被記錄下來。當(dāng)你對某個內(nèi)容產(chǎn)生興趣,必然會有更多的瀏覽點擊,更多的咨詢和購買。系統(tǒng)則根據(jù)一套算法計算用戶行為,對用戶偏好進(jìn)行分析判斷,判斷你喜歡什么。
還是以醫(yī)美產(chǎn)品為例,平臺上有各大商家的產(chǎn)品,如雙眼皮、隆鼻、水光針等等很多品類。我們會統(tǒng)計用戶在站內(nèi)行為數(shù)據(jù)和并對不同行為進(jìn)行加權(quán)計算,最后結(jié)果就是用戶的品類偏好。
比如,瀏覽相關(guān)的帖子、瀏覽商品、將商品加入購物車、下單支付、咨詢商品等行為,為每個行為賦有權(quán)重。通過計算行為頻次再乘以權(quán)重,我們會得到該用戶對某類項目的偏好值。再和其他項目偏好值進(jìn)行對比,值最大的項目就是該用戶最感興趣的項目。
有了用戶偏好特征這個數(shù)據(jù),我們就解決了用戶可能對什么感興趣的問題,接下來我們就把相應(yīng)的內(nèi)容推薦給用戶就好了。
這是一個相對粗糙,但在產(chǎn)品前期很有效的偏好計算方法。隨著內(nèi)容豐富度越高,推薦精細(xì)度要求也就越高,這套計算方法推薦準(zhǔn)確度就會下降。我們就可以引入推薦系統(tǒng),更系統(tǒng)長期的改善這個問題。
4
認(rèn)識推薦系統(tǒng)
相似度計算
衡量用戶之間、內(nèi)容之間的相似性我們用距離來刻畫。距離越小,相似度越高,反之則說明相似度越低。常用歐氏距離和余弦距離進(jìn)行度量。由于距離在很多算法中都會用到,屬于技術(shù)性質(zhì),在這里不多涉及。
常見的推薦系統(tǒng)主要分成三大類。
1.基于人口統(tǒng)計學(xué)的推薦
用一句話來說就是,系統(tǒng)對某個用戶推薦的內(nèi)容,取決于和他相似具有相似特征的用戶喜歡的內(nèi)容。
用戶A 是名女性,年齡介于 18-22 歲,偏好商品A;用戶B 是名男性,年齡介于 30-40 歲,偏好商品B、商品C;用戶C 是名女性,年齡介于 18-22 歲;我們已為每位用戶建立了用戶畫像,現(xiàn)在我們要給用戶C 進(jìn)行推薦。基于用戶畫像和合適的距離度量計算用戶的相似度, 我們發(fā)現(xiàn)用戶A 與用戶C 最相似,可將用戶A偏好的物品A推薦給用戶C。
優(yōu)點
①該推薦算法僅使用用戶的基本信息數(shù)據(jù),不涉及用戶對物品的歷史偏好數(shù)據(jù),所以對于新用戶來說,只要有他(她)的基本信息就可以進(jìn)行推薦,不存在“冷啟動”問題;
②該推薦算法在不同的物品領(lǐng)域都可以使用,因為它不依賴于物品信息;
缺點
①該推薦算法目前僅基于用戶的基本信息,推薦比較粗糙;
②用戶的基本信息不好獲取,比如年齡、性別、職業(yè)等;在某些情況下,用戶的基本信息也需要通過建模獲取;
2.基于內(nèi)容的推薦——你喜歡的事物,給你推薦近似的事物
用一句話說就是,通過內(nèi)容的基本信息確認(rèn)內(nèi)容與內(nèi)容間的相似度,再根據(jù)用戶歷史偏好記錄,將相似內(nèi)容推薦給用戶。
用戶A 喜歡電影A,用戶B 喜歡電影B,用戶C 喜歡電影C,通過分析電影信息標(biāo)簽我們發(fā)現(xiàn)電影A 和電影B 屬于相似影片。所以我們向用戶A 推薦電影B,向用戶B 推薦電影A。
存在問題
①數(shù)據(jù)質(zhì)量要求高:該推薦算法依賴于物品或內(nèi)容的描述數(shù)據(jù),描述得越全面、完整,推薦得就越精確;即該算法對物品內(nèi)容的數(shù)據(jù)質(zhì)量要求較高;
②考慮不全面:該算法僅從物品內(nèi)容本身的特征出發(fā),沒有考慮到用戶對物品內(nèi)容的態(tài)度;
③新用戶問題:需要基于用戶的歷史偏好信息,所有對新用戶無法進(jìn)行推薦;
3.基于協(xié)同過濾的推薦
①基于用戶的協(xié)同過濾——和你相似的用戶還喜歡什么?
用戶A 偏好內(nèi)容A,用戶B偏好內(nèi)容A、B、C,用戶C偏好內(nèi)容B、C。
假設(shè)我們要對用戶C進(jìn)行推薦,通過相似度計算,我們發(fā)現(xiàn)發(fā)現(xiàn)用戶C 與用戶B 的距離最小,相似度最高,說明他們的偏好一致,可將用戶B 偏好的而用戶C還沒未接觸的內(nèi)容A 推薦給用戶C。
②基于內(nèi)容的協(xié)同過濾——買過這款產(chǎn)品的用戶還買過什么?
用戶A 偏好內(nèi)容A,用戶B 偏好內(nèi)容B、C,用戶C 偏好內(nèi)容C
假設(shè)我們想推薦內(nèi)容B,基于歐式距離計算內(nèi)容B 與內(nèi)容A、C之間的距離,發(fā)現(xiàn)內(nèi)容B 與內(nèi)容C 的距離最小,相似性最高,說明內(nèi)容B、C比較相似,可能是同類產(chǎn)品,我們可將內(nèi)容B 推薦給喜歡內(nèi)容C 卻還沒對內(nèi)容B 表示出偏好的用戶C。
與上面基于內(nèi)容推薦區(qū)別是,前者,基于內(nèi)容推薦更偏向于兩個內(nèi)容是接近的、相似的,與用戶的行為無關(guān);后者,與事物是否相似關(guān)系較小,更多與用戶行為有關(guān),存在順承關(guān)系。
基于用戶的協(xié)調(diào)過濾和基于物品的協(xié)同過濾都能達(dá)到不錯的效果,前者是先找相似的人,再找相似的人喜歡的物品;后者則是找到和某個物品相關(guān)的物品。兩者在實際應(yīng)用上有一定的區(qū)別。
如果是電商平臺,商品信息相對穩(wěn)定,在這種情況下基于物品的協(xié)同過濾算法更合適,不僅實時計算壓力小,且不用頻繁更新;
如果是一個新聞或者是內(nèi)容網(wǎng)站,內(nèi)容數(shù)據(jù)偏多且不斷更新,用戶規(guī)模大。造成內(nèi)容重疊度低,特征變化快,再計算內(nèi)容相似度,計算更復(fù)雜。可采用基于用戶的協(xié)同過濾。從計算的復(fù)雜度來講,這兩個算法各有優(yōu)勢,我們要根據(jù)不同場景的特點去選擇。
在實際應(yīng)用中,一般不會只采用某一種推薦算法,而是將各個推薦算法進(jìn)行組合。這方面更多是技術(shù)算法策略問題。
5
從零搭建推薦系統(tǒng)
如果我們想搭建個性化的內(nèi)容推薦系統(tǒng)要考慮哪些問題?
首先最重要的評估這件事
1.宏觀大盤,如開頭提到,今日頭條產(chǎn)品面向的人群比其他新聞客戶端更大,有著更為精準(zhǔn)的產(chǎn)品定位和用戶增長空間,而推薦系統(tǒng)解決了信息分發(fā)效率問題,為今日頭條的崛起插上了翅膀。所以在開始搭建之前要明確推薦系統(tǒng)給產(chǎn)品帶來了哪些用戶價值和商業(yè)價值,否則很難調(diào)動大量人員參與到這個項目中。
2.自身儲備。做推薦,需要大量的內(nèi)容庫和用戶樣本、結(jié)構(gòu)化的標(biāo)簽數(shù)據(jù)和強(qiáng)大的算力。三者少一個都支撐不了推薦系統(tǒng)。
其次,衡量推薦系統(tǒng)的作用
非常認(rèn)可一句話,如果你無法衡量它,你就無法有效增長它。我們要明確這件事的核心目的,核心指標(biāo)、相關(guān)性指標(biāo)分別是什么?
回到醫(yī)美App日記內(nèi)容推薦中分析。我們做推薦,核心目的:縮短用戶決策時間,提升訂單量。因此訂單量是核心衡量指標(biāo)。
由于在成單路徑上,受到很多因素影響,我們要找到與推薦系統(tǒng)最相關(guān)的指標(biāo)。我梳理了一個簡單用戶行為路徑。
從上面我們可以看出,推薦系統(tǒng)相關(guān)性指標(biāo)分別是,日記點擊率、次日留存、閱讀篇數(shù)、商品詳情頁穿透率、停留時長。參考這些指標(biāo),有利于我們對推薦系統(tǒng)的實際效果進(jìn)行評估。
除了指標(biāo)數(shù)據(jù)外,不同維度的數(shù)據(jù)(如feed流的數(shù)據(jù)規(guī)律、分層用戶的數(shù)據(jù)表現(xiàn))也要注意挖掘提煉和分析。
第三,真正開始設(shè)計搭建推薦系統(tǒng)。
內(nèi)容推薦的搭建主要分成三個模塊,分別是內(nèi)容模塊、用戶模塊、分發(fā)模塊。
內(nèi)容模塊:
1.對要儲備足夠大量的內(nèi)容,建立內(nèi)容分發(fā)池。無論是人工生產(chǎn)還是爬蟲抓取,足夠多的內(nèi)容庫是內(nèi)容分發(fā)的基礎(chǔ)。
2.對內(nèi)容進(jìn)行結(jié)構(gòu)化處理。從標(biāo)簽、分類、維度等角度建立標(biāo)簽(Tag)。根據(jù)實際情況的不同,分類的顆粒度也會有差異。理論上Tag越準(zhǔn)確越豐富,推薦效果越好。維度設(shè)計除基本屬性類別作為標(biāo)簽,前期也可以開放部分打標(biāo)簽的權(quán)限給用戶,允許自主分類,發(fā)現(xiàn)用戶需求,使標(biāo)簽更貼合用戶。當(dāng)然注意標(biāo)簽維度更新頻率要低。
用戶模塊:
1.對用戶畫像。通過用戶自填、功能設(shè)計、系統(tǒng)抓取等方式收集梳理用戶必要信息,如性別、年齡等,對不同用戶的群體特征進(jìn)行打標(biāo)簽,通過對標(biāo)簽的分類聚合形成一個個不同層次的用戶畫像。
2.用戶行為數(shù)據(jù),通過埋點,收集分析用戶站內(nèi)行為,發(fā)現(xiàn)用戶偏好,分析用戶對內(nèi)容的消費行為和反饋。
分發(fā)模塊:
1.確定推薦策略和推薦模型,這個主要是產(chǎn)品參與,技術(shù)主導(dǎo)。
2.進(jìn)行內(nèi)容展示的功能、交互和反饋設(shè)計。通過功能層對初期的推薦系統(tǒng)在分發(fā)方式上進(jìn)行合理補(bǔ)充。
最后,當(dāng)一切就緒后,就可以準(zhǔn)備上線了。我們可以通過A&B測試的方式,建立對照組,評估我們的推薦系統(tǒng)是否有效帶來了增長,是否顯著拉動了相關(guān)指標(biāo)尤其是核心指標(biāo)。AB測試能夠為我們在后需推薦系統(tǒng)的迭代優(yōu)化中,起到非常重要的幫助。
至此,相對簡單的推薦系統(tǒng)就搭建好了。
6
后記
推薦系統(tǒng)是非常純粹互聯(lián)網(wǎng)產(chǎn)物,它專注解決兩個問題,一是如何向用戶推薦他感興趣的內(nèi)容;二是如何發(fā)現(xiàn)用戶更可能感興趣的。隨著各大公司對推薦算法研究深入,推薦準(zhǔn)確度會不斷提高。但同時,隨著用戶整體認(rèn)知水平不斷提高,對信息質(zhì)量的訴求也會逐漸豐富,這種豐富會倒逼內(nèi)容分發(fā)更具多樣性。我相信,信息分發(fā)領(lǐng)域永遠(yuǎn)不存在一家獨大,永遠(yuǎn)都有可能誕生出潛力無限的偉大公司。
我曾經(jīng)非常喜歡推薦系統(tǒng),因為它不僅具備多重價值,還擁有某種社會意義。它讓信息更公平,每個人擁有信息閱讀的權(quán)利,間接促進(jìn)了社會公平。但是,推薦系統(tǒng)走向了彎路,它圍繞用戶編制了巨大的信息網(wǎng),讓用戶無法跳出去看問題。這種信息繭房,營造了短暫的信息滿足,限制了用戶探索的欲望,讓大眾認(rèn)知更局限,更偏激。
當(dāng)然沒有東西是完美的,推薦系統(tǒng)也在不斷迭代,在臺前幕后,不斷試圖了解我們的內(nèi)心和情感,像親人,也像魔鬼。
我也曾感動于系統(tǒng)如此懂我,但卻時常懷念,曾經(jīng)去跑到地攤前買份報紙讀半天的自己。
總結(jié)
以上是生活随笔為你收集整理的“猜你喜欢” — 浅谈内容分发中的推荐系统的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何增加儿童产品中的趣味性?
- 下一篇: 行业思考 | 酷炫动效是否利于你的产品设