京东数据驱动下的个性化推荐
劉尚堃 京東數(shù)據(jù)驅(qū)動下的個性化推薦系統(tǒng)(PPT附下載)
劉尚堃·京東推薦搜索部技術總監(jiān)
劉尚堃,京東推薦搜索部技術總監(jiān),有七年B2C行業(yè)搜索經(jīng)驗。目前負責搜索引擎、推薦方面的產(chǎn)品研發(fā)和團隊管理工作。他領導團隊將推薦搜索技術應用于京東各個品牌的支持當中,包括移動端的平臺、以及PC端平臺、以及微信平臺全部的推薦業(yè)務和場景。
個性化推薦簡述
個性化推薦就是通過全方位的數(shù)據(jù)精準刻畫用戶的購買意圖,然后有針對性給用戶推薦用戶購買意愿高的商品,為用戶提供極致的產(chǎn)品體驗,提升下單轉(zhuǎn)化率,增強用戶粘性。個性化推薦模型分為召回和排序兩大類,劉尚堃在采訪中,通過舉例詳細的講解了這兩大類模型。
召回模型
召回模型就是選舉推薦的侯選,京東主要用到基于行為的召回模型,其分為近期和長期兩種,其他還有基于偏好、基于地域等。
基于行為
基于近期行為的召回模型:例如一個用戶喜歡最近瀏覽一些炒股類的書籍,那么就會給這個用戶推薦一些他可能感興趣的其他炒股書籍。像這樣就尤其是最近發(fā)生的行為,這樣的情況就叫做近期行為的相似商品推薦。例如一個用戶買了一本《秘密花園》,這時候就會馬上給用戶推薦彩色筆。像這樣的情況就叫做近期行為的商品購買搭配推薦。劉尚堃表示:“基于近期行為的在線算法是最基礎最好用同時也是轉(zhuǎn)化率最高的”。
長尾商品的搭配
基于中長期行為的召回模型:中長期的行為通常在半年左右,可以用瀏覽相似、離線購買搭配和離線的SVD。當在做搭配的時會有一些小Trick。因為京東的商品比較豐富,其中有些新商品沒有用戶行為。針對這樣的情況,利用購物籃分析,建立產(chǎn)品和產(chǎn)品之間的關系。把這些關系應用到個性化推薦中去,提升長尾商品的搭配覆蓋率。
基于偏好
基于偏好
基于偏好也就是用戶畫像:比如女孩又比較喜歡化妝品買衣服,那么就會根據(jù)她在京東過去的一些行為,針對興趣愛好進行推薦。當然在推薦的時候,還要考慮到用戶的購買力,敏感度等問題。如果用戶特別鐘愛戶外用品,這就是用戶的偏好。喜歡韓版衣服,這是用戶的修飾的偏好。當不知道用戶喜歡什么產(chǎn)品,也不知道什么興趣愛好甚至偏好時,就會通過一些算法來預測你感興趣的產(chǎn)品。基于大數(shù)據(jù)從海量的其他用戶中挖掘最接近的一個用戶,看看他喜歡什么樣的東西,他的興趣是什么,他的品牌是什么,然后再傳遞給用戶。
基于地域:京東有很多配送地,可以把一些區(qū)域做一些建模,比如說三里屯地區(qū)撲克牌、色子買的人比較多,因為有人需要它們給女孩變魔術。還有一些別的地區(qū),也可能有類似這樣的偏向于某一種消費品。通過區(qū)域劃分可以獲得很多的信息,比如購買力,就拿萬國城和史個莊相比,萬國城的消費程度比較高,就推薦一些高價位的商品。地域模型主要還可以用在沒有任何消費行為的新用戶上,就拿一名從來沒有在京東上購買過商品的學來說,如果他是清華大學這個區(qū)域,就推薦一些比較有難度的考研題目,或四六級書籍。如果是北京聯(lián)合大學的學生,就相對應簡單一些。
排序模型
當積累一定的用戶和流量,有一定點擊和購買之后,就需用到排序算法。
排序?qū)W習
標記:Point、pair、wise。第一步是做模型選取,因為模型有不同的特征和特性需要選取模型。第二是根據(jù)選取的模型進行標注,如果是Point標注,是選取正例和負例,如果是pair wise標注方法是,比如用ABCD四個商品,A沒有任何操作,B點擊了,C購買了,D沒有任何操作,那么就是點擊了BA,那么BA就是一個正例。CA因為是實際購買的,是正例,還有CB由于C是購買,B是點擊,購買比點擊更重要一些,CB也是正例,CD也是一個正例。后面的Tao是比較重要的程度。
特征計算:召回模型標記特征,在線相似、在線相關、離線相似、離線相關,基于用戶畫像的召回和基于地域的召回,從哪個模型召回,這是我們重要的內(nèi)容。商業(yè)模型,比如某一個商品是大品牌還是小品牌等。用戶特征,實際上是對用戶畫像的維度,用戶的性別和購買力,還有用戶之前點擊的商品以及之前購買的商品是什么等。商品特征,,商品的銷量數(shù),價格區(qū)間等。、上下文特征,指的是用戶之前和之后一系列的操作等。時間特征,什么時間點對這個商品進行了點擊和購買等。地域特征、季節(jié)特征等。
離線計算和在線計算
離線計算,數(shù)據(jù)存在Data Mart,通過Hadoop上面運行Map Reduce,另外大量通過Mahout和Spark,通過分布式任務調(diào)度系統(tǒng)將輸送的結果存入HBase當中。
在線計算計算流程,通過Kafka接收消息存入HBase當中,在線計算主要基于Storm,實時消息基于Kafka是150億+消息的處理。
未來突破點
當問及未來針對個性化推薦系統(tǒng)從哪個角度去突破時候,劉尚堃這樣說:“個性化推薦會達到一定瓶頸是肯定的,不敢說在機器學習、推薦搜索算法上,已經(jīng)達到了一個什么樣的高度。因為在前面有很多巨頭,包括國外也有不斷地出現(xiàn)一些新的技術。京東推薦部門經(jīng)過了幾年的發(fā)展不斷的趨向完美,在資深團隊成長的同時還有來自新浪谷歌的科學家加入。在過去,京東關更多關注的是推薦系統(tǒng)怎么去帶動京東的銷售,怎么幫助網(wǎng)站提高轉(zhuǎn)化率。在未來,需要更多考慮的是體驗類的指標,就是怎么去提升用戶體驗度。”
PPT預覽:
PPT下載:電商和零售業(yè)的轉(zhuǎn)型_劉尚堃_京東數(shù)據(jù)驅(qū)動下的個性化推薦系統(tǒng).pdf
End
來自36大數(shù)據(jù)(36dsj.com): 36大數(shù)據(jù) ??? 劉尚堃 京東數(shù)據(jù)驅(qū)動下的個性化推薦系統(tǒng)(PPT附下載)總結
以上是生活随笔為你收集整理的京东数据驱动下的个性化推荐的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: FFmpeg的添加logo,去logo
- 下一篇: Google Protocol Buff