揭秘!信息检索技术高端玩法
《SIGIR 頂會(huì)論文解讀》重磅發(fā)布
由 7 位阿里巴巴技術(shù)專家精心打造,內(nèi)容覆蓋推薦系統(tǒng) 、成交轉(zhuǎn)化模型 、 回音室效應(yīng) 、 全空間多任務(wù)轉(zhuǎn)化率預(yù)估建模 、 DeepMatch 召回模型 、 跨領(lǐng)域冷啟動(dòng)用戶推薦網(wǎng)絡(luò) 、 表示學(xué)習(xí)模型等信息檢索領(lǐng)域新技術(shù)。
精彩內(nèi)容搶先看
?
1、對(duì)抗推薦系統(tǒng)
 回顧推薦系統(tǒng)的發(fā)展,離不開模型、數(shù)據(jù)、訓(xùn)練方式三個(gè)維度的創(chuàng)新。模型層面,基于內(nèi)容的推薦系統(tǒng)到協(xié)同過濾的矩陣分解,以及神經(jīng)網(wǎng)絡(luò)帶來的序列化建模,使得用戶表征和商品表征刻畫越來越精細(xì);數(shù)據(jù)層面,長(zhǎng)短期行為的切分,基于session 的推薦 [1],跨場(chǎng)景行為的引入,數(shù)據(jù)的豐富和建模為用戶興趣的挖掘提供更多的可能;訓(xùn)練方式上,分布式訓(xùn)練框架,在線學(xué)習(xí),高維稀疏特征處理,優(yōu)化器設(shè)計(jì),從而支撐商業(yè)化推薦系統(tǒng)。然而,性能提升的同時(shí),我們也看到推薦系統(tǒng)的可解釋性逐漸變成黑盒。用戶的興趣偏好如何表征,興趣如何演變,不同時(shí)間點(diǎn)的歷史行為由哪種因素主導(dǎo),這一系列的問題都對(duì)現(xiàn)代化推薦系統(tǒng)的解釋提出了挑戰(zhàn)。
2、GMCM基于微觀行為圖的成交轉(zhuǎn)化模型
 電商推薦系統(tǒng)幫助用戶尋找感興趣的商品。在這個(gè)系統(tǒng)中,兩個(gè)任務(wù)扮演了至關(guān)重要的角色,點(diǎn)擊率預(yù)估(CTR Estimation)和成交轉(zhuǎn)化率預(yù)估(CVREstimation)。顧名思義,點(diǎn)擊率是商品從被曝光到被點(diǎn)擊的概率,成交轉(zhuǎn)換率是商品從被點(diǎn)擊到被購(gòu)買的概率。
 雖然學(xué)界和業(yè)界在 CVR預(yù)估方面做了不少有意義的工作,但是工業(yè)應(yīng)用中的 CVR預(yù)估仍然是個(gè)有挑戰(zhàn)性的任務(wù)。
3、屬性二部圖的表示學(xué)習(xí)
 網(wǎng)絡(luò)數(shù)據(jù)是一種常見的數(shù)據(jù)表示形式,可以用來建模現(xiàn)實(shí)世界中的多種應(yīng)用場(chǎng)景。網(wǎng)絡(luò)表示學(xué)習(xí)(又稱作圖嵌入學(xué)習(xí)),作為一種建模網(wǎng)絡(luò)數(shù)據(jù)的模型,近年來受到學(xué)界和工業(yè)界的廣泛重視,得到了極大發(fā)展。網(wǎng)絡(luò)表示學(xué)習(xí)旨在把復(fù)雜的網(wǎng)絡(luò)圖數(shù)據(jù)結(jié)構(gòu)嵌入到低維的連續(xù)向量空間中,并且使每一個(gè)節(jié)點(diǎn)的特征信息在低維空間中得到反饋。近年來,大量的網(wǎng)絡(luò)表示學(xué)習(xí)方法和模型被不斷提出并且在鏈路預(yù)測(cè)、節(jié)點(diǎn)分類、網(wǎng)絡(luò)可視化等相關(guān)的實(shí)際任務(wù)上有很好的表現(xiàn)指標(biāo)。
4、了解電子商務(wù)中的回音室效應(yīng)
 個(gè)性化推薦系統(tǒng)在為用戶帶來更精準(zhǔn)商品的同時(shí),也對(duì)消費(fèi)者的興趣偏好和行為造成影響,例如回音室效應(yīng)。回音室是指用戶不斷接受相似的信息和內(nèi)容, 從而使得他們的興趣或者態(tài)度被不斷強(qiáng)化。這種現(xiàn)實(shí)通常出現(xiàn)在社交媒體和網(wǎng)絡(luò)平臺(tái),也同樣可能出現(xiàn)在電子商務(wù)等推薦系統(tǒng)中。我們的研究集中在電子商務(wù)的推薦系統(tǒng)對(duì)用戶興趣的影響,利用淘寶的大規(guī)模用戶數(shù)據(jù)檢驗(yàn)是否存在回音室效應(yīng)。
5、基于post-click行為分解的全空間多任務(wù)轉(zhuǎn)化率預(yù)估建模
 隨著移動(dòng)互聯(lián)網(wǎng)的興起,從海量的數(shù)據(jù)中挖掘出有價(jià)值的信息并呈現(xiàn)給用戶,已成了電商、社交、新聞等主流應(yīng)用的核心功能,推薦系統(tǒng)正是在這樣的背景下誕生的。在電商領(lǐng)域,高質(zhì)量的推薦系統(tǒng)能為用戶提供精準(zhǔn)、及時(shí)、甚至帶有一定驚喜性的個(gè)性化服務(wù),進(jìn)而有效地增加了用戶與系統(tǒng)之間的黏性,同時(shí)也能為平臺(tái)帶來一定的收入。一般說來,電商領(lǐng)域 ( 如淘寶 ) 的推薦系統(tǒng)架構(gòu)主要包括兩個(gè)階段:系統(tǒng)決策和用戶決策。
6、一種挖掘用戶評(píng)論文本的跨領(lǐng)域冷啟動(dòng)用戶推薦網(wǎng)絡(luò)
 在大型推薦場(chǎng)景中,存在著眾多類目(例如亞馬遜平臺(tái)中的書籍、影視推薦等)。用戶往往只與其中部分類目有過交互,對(duì)于其他類目,由于缺少相應(yīng)的歷史行為記錄,協(xié)同過濾方法會(huì)遭遇冷啟動(dòng)問題。
 為了緩解冷啟動(dòng)問題,一類可行的方法為利用用戶在其他類目上的歷史交互記錄進(jìn)行知識(shí)遷移(跨領(lǐng)域推薦),比如,給喜歡武俠小說的用戶推薦古裝電影。同時(shí),為了更細(xì)致地刻畫用戶形象,參考用戶的歷史評(píng)論進(jìn)行輔助推薦也能起到促進(jìn)作用。
 近年來,跨領(lǐng)域推薦和基于評(píng)論的個(gè)性化推薦均取得了不俗的進(jìn)展,卻鮮有工作將二者結(jié)合。這類工作主要存在以下挑戰(zhàn):
1)用戶在不同類目下的關(guān)注點(diǎn)是不同的,且只有少量稀疏特性存在關(guān)聯(lián),導(dǎo)致模型較難發(fā)現(xiàn)此類隱式關(guān)聯(lián);
2)對(duì)于在當(dāng)前類目下無歷史記錄的冷啟動(dòng)用戶,若直接利用其他類目下該用戶的評(píng)論文本,則會(huì)不可避免地帶來用戶特征的抽取誤差,例如,喜歡粗糙質(zhì)地工藝品的用戶,不一定會(huì)喜歡粗糙材質(zhì)的衣物。鑒別不同類目間評(píng)論文本的語義差異,也是一個(gè)不小的挑戰(zhàn)。
 針對(duì)以上問題,本文提出了一種挖掘用戶在不同類目下的評(píng)論關(guān)聯(lián),進(jìn)而對(duì)冷啟動(dòng)用戶進(jìn)行推薦的深度模型,稱作CATN
7、全局自適應(yīng)模塊:為召回模型裝上第三只眼
 DeepMatch在搜索、推薦和廣告等系統(tǒng)都大量應(yīng)用,是一種重要的召回方式。通常將用戶 ( 搜索場(chǎng)景下包含 Query) 和商品通過深度模型編碼成向量,線上通過向量近鄰查找 top K 個(gè)商品作為召回結(jié)果。
?
原文鏈接:https://developer.aliyun.com/article/768517?utm_content=g_1000163102
 本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
以上是生活随笔為你收集整理的揭秘!信息检索技术高端玩法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 【数据湖加速篇】 —— 如何利用缓存加速
- 下一篇: 如何基于大数据及AI平台实现业务系统实时
