跨境电商Etsy如何使用交互行为类型进行可解释推荐
“?本文介紹了跨境電商Etsy如何利用用戶歷史交互行為的類型(如瀏覽,喜歡,收藏,加購,購買等)來完善物品的embedding表示,并進行可解釋推薦。在離線和在線實驗中均驗證了引入交互類型信息后對于建模用戶行為的準確性有提升。”
背景和介紹
工業級的推薦系統已成為影響電子商務網站用戶體驗的基石。對于擁有超過5000萬個手工藝品和古董的在線交易網站Etsy來說,用戶越來越依賴個性化推薦系統從海量的物品中尋找相關物品。
和眾多電商網站類似,在Etsy中用戶可以產生豐富的交互行為,包括瀏覽,喜歡,收藏,加購以及購買等。
如果場景中不包含多種行為類型,或者某種行為類型過于稀疏的話,可能也不太適合這種方法
通常我們認為用戶產生的不同行為表達了對物品的不同意圖,因此除了使用用戶歷史上交互過的物品信息外,歷史行為的類型也是需要考慮的因素。
相似推薦和相關推薦如圖所示,對于同樣的目標物品,一盆綠植,對于看過該物品的用戶,我們傾向于為他推薦相似的物品,可以作為替代的物品。對于購買了它的用戶,我們傾向推薦一些小擺件,或者花盆等相關的物品。
這也是我們通常說相似推薦和相關推薦,仔細想想兩者的區別~
本文提出了一種學習基于交互類型的物品表達的方法,除了得到包含物品的共現模式信息外還包含交互類型的共現信息。因此相比于傳統的僅僅考慮物品信息的方法,本文的方法更加靈活和具有普適性,并且能夠提供諸如“由于你收藏了A,所以猜測你想要購買B”這樣的推薦理由。
得到的embedding提供了一種很方便的方式來使用內積近似(物品-交互)pair 共同發生的概率,這種方式可以用于推薦系統中召回環節。
最后在Etsy數據集和在線實驗中均驗證了考慮行為交互類型后對于建模用戶行為的準確性確實有提升。
方法介紹
本文的方法可以看作是在傳統的item2vec基礎上引入用戶交互行為的類型,從物品維度的向量表達擴充為【物品-交互類型】pair維度的向量表達,并根據交互類型的偏序關系使用合適的負采樣技巧。
簡單來說,就是把item2vec換成了(item-interaction_type)2vec,并對負采樣做了相應調整。
基于交互類型的Embedding學習
設代表物品集合,代表交互類型。對于每個在Etsy上訪問的用戶,都會產生如下的【物品-交互類型】pair?例如:?瀏覽喜歡購買?以上交互序列表明用戶先瀏覽了物品,然后喜歡了物品,最后購買了物品.
給定一個物品-交互二元組,則出現的概率為?
這里和分別是pair對的輸入和輸出表示向量,m是上下文窗口數量。
負采樣優化
由于全體物品集合數量很大,使用負采樣技巧來加速模型的訓練。與傳統item2vec依據物品熱度采樣不同的是,本文使用了一種考慮交互類型偏序關系的負采樣方法。
定義一個偏序。對于每個Session中出現的物品-交互二元組,我們添加這樣的負樣本,其中且。
舉例來說,如果一個物品被瀏覽且加入購物車,那么針對該樣本我們會構造一個類型為購買的負樣本。
這種方法存在的一個缺點是構造出來的負樣本都是不包含瀏覽類型的。為了解決這個問題,對于每個只有瀏覽行為的物品,我們額外構造兩個負樣本和。其中和是從與相同的類目中均勻采樣得到的,這樣可以捕捉到相同類目下的用戶偏好的物品。
embedding空間下的近鄰檢索
【物品-交互】pair的embedding空間示意圖給定一個用戶的最后一個動作,圖中是,其在embedding空間的topk個近鄰表示用戶可能會產生交互的物品和相應的交互類型。(根據圖示,用戶可能瀏覽物品或,加購或購買)
實驗和結果
實現細節
數據使用了2017年11月到2018年網站用戶訪問日志。篩選了包含pair對數量大于3用戶Session來避免噪音數據的干擾。
文章使用了facebook開源的fastText庫來訓練得到embedding。
上下文窗口5,維度100,除了上述負采樣方法,每個序列中額外隨機添加5個負樣本。
離線評估
以下兩種方法是本實驗選取的baseline
基于共同購買行為的item cf,目前是esty中的主要召回來源
不考慮行為類型的item2vec召回
hit rate 和召回數量關系圖
hit rate 和召回數量關系圖橫坐標是召回的結果數量,縱坐標是購買行為的平均hit rate。
可以觀察到,基于瀏覽交互行為產生的候選集的hit rate高于其他幾種方法,包括超越了基于共同購買的itemcf(當召回候選集數量足夠多時)。盡管基于瀏覽交互的模型在候選集數量較少時弱于共同購買itemcf,但是得益于其探索性,能夠在擴充候選集時提升平均hit rate。這也是itemcf的一個弊端,召回的頭部物品表現良好,尾部物品表現較差。
另外普通的item2vec在幾種方法里具有最低的hit rate,這也說明了學習【物品-交互】pair的embedding相比于單純學習物品的embedding能夠在召回結果中包含更多的最終被購買的物品。
不同任務目標下的hit rate相對變化(相比于傳統item2vec提升百分比)
不同任務目標下的hit rate相對變化我們觀察到,在所有我們考慮的任務目標上(瀏覽,加夠,購買),瀏覽交互模型勝過無交互模型(傳統item2vec)以及所有其他模型。僅當測試目標互動是加夠或購買時,加夠互動模型才表現出優于無互動模型。但是,并沒有超越基于共同購買的itemcf。作者認為是由于訓練數據中加夠互動的稀疏性,導致學習得到embedding效果不理想。
物品覆蓋率和流量覆蓋率
物品覆蓋率和流量覆蓋率基于共同購買的itemcf由于數據稀疏性存在的一個缺點是其召回結果的覆蓋率相對較低。從上表中看到其覆蓋率為9.43%。基于物品-交互和無交互的方法至少能夠覆蓋70%的物品,同時也服務于超過80%的流量。
itemcf依賴歷史共現數據,item2vec等方法具有一定泛化性,因此能夠召回一些itemcf無法召回的結果。
在線實驗
在線實驗使用了50%的流量進行了7天的ab test。對照組使用了不考慮交互類型的用戶最近的100個交互物品進行召回,實驗組使用了兩個模塊,【View-Interaction】模塊使用用戶最近瀏覽過的4個物品進行召回,【Cart-Interaction】模塊使用用戶最近加購過的4個物品進行召回。
這里我有個疑問是對照組使用最近100個行為,實驗組使用最近4個,這樣的話最近100個行為會不會由于包含了時間久遠的行為而引入一些噪聲呢?
對照組實驗組相比于對照組,實驗組的【View-Interaction】模塊帶來4.1%的點擊率提升。整體帶來了0.20%的下單率和0.31%的結賬率提升。
總體來說,本文提出的方法并不復雜,主要解決的是改進了利用傳統的itemcf或item2vec進行召回時候不便同時利用多種不同類型的交互樣本的問題,并在此基礎上根據交互類型為推薦結果提供一定的解釋性,同時也緩解了某一特定類型交互行為過于稀疏的問題。
參考文獻
Learning Item-Interaction Embeddings for User Recommendations(https://arxiv.org/abs/1812.04407)
備注:公眾號菜單包含了整理了一本AI小抄,非常適合在通勤路上用學習。
往期精彩回顧2019年公眾號文章精選適合初學者入門人工智能的路線及資料下載機器學習在線手冊深度學習在線手冊AI基礎下載(第一部分)備注:加入本站微信群或者qq群,請回復“加群”加入知識星球(4500+用戶,ID:92416895),請回復“知識星球”喜歡文章,點個在看
總結
以上是生活随笔為你收集整理的跨境电商Etsy如何使用交互行为类型进行可解释推荐的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 顶会快讯|5篇AAAI2020相关论文抢
- 下一篇: 我最佩服的一位同学!他是哈工大在读NLP