深度学习打造精准推荐系统,细说国美互联网AI发展的进击之路
http://www.infoq.com/cn/articles/depth-learning-build-accurate-recommendation-system
導(dǎo)語
這是一個AI+的時代。
作為線上+線下的電商零售平臺,國美互聯(lián)網(wǎng)如何將人工智能技術(shù)嵌入到實際業(yè)務(wù)中?機器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)為國美帶來了哪些改變?在這火熱的時局中,國美未來在前沿技術(shù)方面又將如何布局?且聽下文一一分解。
正文
今年機器學(xué)習(xí)已然成為炙手可熱的技術(shù)話題。深度學(xué)習(xí)與人工智能技術(shù)正在改變?nèi)藗兊纳?#xff0c;同時也給企業(yè)管理大量數(shù)據(jù)、為用戶提供更精準(zhǔn)的服務(wù)提供了一些新的思路和嘗試的方向。越來越多的企業(yè)開始嘗試將機器學(xué)習(xí)引入原有的大數(shù)據(jù)平臺和框架中,并將公司業(yè)務(wù)與機器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)相結(jié)合以尋求更優(yōu)的業(yè)務(wù)價值。
2016年11月國美互聯(lián)網(wǎng)板塊所屬國美在線、美信、國美管家、GOME酒窖、國美海外購整合組建國美互聯(lián)網(wǎng)生態(tài)(分享)科技公司(下面簡稱國美互聯(lián)網(wǎng)),并推出了國美Plus APP。作為具備線上線下雙重基因的新零售平臺,國美互聯(lián)網(wǎng)近年來,針對機器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)與社交電商業(yè)務(wù)相結(jié)合進行了一系列嘗試和創(chuàng)新。這次我們非常有幸對國美互聯(lián)網(wǎng)大數(shù)據(jù)中心的副總監(jiān)楊驥進行了采訪,目前他主要負(fù)責(zé)搜索、推薦和深度學(xué)習(xí)三個方向的研發(fā)工作及團隊管理。作為國美互聯(lián)網(wǎng)個性化推薦團隊和算法架構(gòu)平臺建設(shè)者,楊驥與我們分享了國美互聯(lián)網(wǎng)在機器學(xué)習(xí)技術(shù)之路上的嘗試、挑戰(zhàn)與收獲。
國美大數(shù)據(jù)中心背景
國美互聯(lián)網(wǎng)大數(shù)據(jù)中心主要負(fù)責(zé)大數(shù)據(jù)平臺運維、大數(shù)據(jù)應(yīng)用、BI、搜索、推薦等相關(guān)內(nèi)容,支撐國美互聯(lián)網(wǎng)全業(yè)務(wù)線(包括大家電、百貨、汽車等)的精準(zhǔn)營銷和數(shù)據(jù)變現(xiàn)。尤其是最近幾年以來,中心在機器學(xué)習(xí)方面投入了非常多的資源,除了升級推薦和搜索相關(guān)的機器學(xué)習(xí)算法之外,還陸續(xù)推出了“國美拍照購”、“圖像相似推薦”、“圖像搭配推薦”等基于深度學(xué)習(xí)算法的產(chǎn)品。
國美個性化推薦系統(tǒng)面面觀
對于電商來說,個性化推薦系統(tǒng)是不可或缺的利器,也是國美互聯(lián)網(wǎng)應(yīng)用機器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的主要戰(zhàn)場。
推薦系統(tǒng)演進之路
要將機器學(xué)習(xí)技術(shù)應(yīng)用到實際產(chǎn)品中,必然離不開一套良好的算法和平臺架構(gòu)。2016年3月楊驥加入國美之后,對機器學(xué)習(xí)和深度學(xué)習(xí)算法以及線上服務(wù)架構(gòu)進行重構(gòu),打造了全新的個性化推薦系統(tǒng)。目前,楊驥帶領(lǐng)團隊已經(jīng)完成了三輪大規(guī)模的架構(gòu)升級,最終實現(xiàn)了一套完整的推薦系統(tǒng)架構(gòu),其中包括機器學(xué)習(xí)和深度學(xué)習(xí)計算平臺,并整合了A/B測試、線上部署和自動化監(jiān)測等功能。
系統(tǒng)架構(gòu)和流程
下面是國美互聯(lián)網(wǎng)應(yīng)用Learning to Rank(機器學(xué)習(xí)排序,L2R)后的推薦系統(tǒng)流程圖和架構(gòu)圖。采用的工具包括Apache Storm、Kafka、Spark、Flink等。
當(dāng)用戶在網(wǎng)站或者APP上看到“猜你喜歡”的商品后進行了點擊。一方面,該點擊信息通過實時數(shù)據(jù)處理系統(tǒng)反饋給排序引擎和在線訓(xùn)練模型,幫助推薦系統(tǒng)實時調(diào)優(yōu);另一方面,點擊信息進入Log。基于Log進行知識挖掘,獲取相關(guān)特征和訓(xùn)練數(shù)據(jù),并進行基礎(chǔ)推薦模型的計算(如關(guān)聯(lián)規(guī)則和協(xié)同過濾模型等)以及離線排序模型的訓(xùn)練。離線排序模型緩存到Redis模型服務(wù)器,而相關(guān)特征數(shù)據(jù)、基礎(chǔ)推薦模型的粗篩結(jié)果緩存到Hbase和Redis數(shù)據(jù)服務(wù)器。
系統(tǒng)要向用戶展示推薦商品時,數(shù)據(jù)獲取模塊獲得用戶的基本特征和推薦的初篩結(jié)果,進行交互特征和在線特征的計算,然后利用離線模型、在線模型以及業(yè)務(wù)規(guī)則進行最終的篩選與排序,返回最終推薦結(jié)果給用戶。
數(shù)據(jù)收集和清理
國美使用Apache Kafka和Apache Storm系統(tǒng)收集和處理推薦展位上的實時數(shù)據(jù)消息,包括推薦展位每頁已經(jīng)展示過什么商品、用戶點擊了什么商品等。然后對這些數(shù)據(jù)消息進行實時分析和統(tǒng)計,包括用戶在推薦展位展示之前已經(jīng)對哪些品類的產(chǎn)品有過購買行為,對不同的已購買商品賦予不同的權(quán)重(比如手機買過則短期不會再買,紙巾則會隔較短時間反復(fù)購買),再計算出接下來的推薦展位應(yīng)該顯示哪些商品。
對于一些特殊的用戶數(shù)據(jù)需要進行數(shù)據(jù)清理,以免影響算法模型的擬合效果。比如,已購買用戶對同一商品的點擊和查看對推薦排序模型是無用的,應(yīng)該被排除;還有一些用戶頻繁地點擊商品但卻不下單,被稱為“點擊狂人”,可以通過統(tǒng)計方法將其剔除。
離線模型+在線學(xué)習(xí)
國美互聯(lián)網(wǎng)的推薦系統(tǒng)中離線模型和在線學(xué)習(xí)相輔相成。
離線模型主要是為了節(jié)省計算時間、加快響應(yīng)速度,當(dāng)然需要消耗一些緩存空間并犧牲一定的精度。例如,召回模型中會預(yù)置一些算法模型,并根據(jù)快照信息離線進行商品的初篩,使進入實時排序模型的商品量從千萬級別減少為數(shù)百個,大大提高了實時排序的效率。目前國美互聯(lián)網(wǎng)的召回模型中有20-30個算法模型,既保證了召回的多樣性,也不至于給維護帶來太多麻煩。
而在線學(xué)習(xí)則是為了提高排序的準(zhǔn)確度,它能根據(jù)用戶實時的行為數(shù)據(jù)對模型進行實時訓(xùn)練,使當(dāng)前模型準(zhǔn)確地反應(yīng)用戶當(dāng)下的興趣和傾向。但是使用在線學(xué)習(xí)也會引入新問題,比如在電商店慶日,用戶的購買行為可能是非理性的,如果一味地使用在線學(xué)習(xí)將會給算法模型引入嚴(yán)重的偏差,因此國美的推薦系統(tǒng)會定期(每天或每隔幾個小時)使用離線數(shù)據(jù)進行模型訓(xùn)練并對在線模型進行校準(zhǔn)。
用戶畫像
對于電商來說,內(nèi)部收集到的用戶數(shù)據(jù)用來做用戶畫像肯定不如社交類網(wǎng)站的數(shù)據(jù)豐富,可能導(dǎo)致做出來的用戶畫像不夠立體。因此國美互聯(lián)網(wǎng)通過將用戶行為映射到商品信息上來構(gòu)建用戶畫像。比如用戶行為(點擊、關(guān)注或收藏等)涉及的一系列商品的屬性(比如品類、品牌、中心詞、價格等)作為用戶行為的映射,刻畫出用戶感興趣的商品,然后再結(jié)合用戶標(biāo)簽(比如有車一族、戶外運動愛好者等),完成用戶畫像的構(gòu)建。目前用戶畫像在國美互聯(lián)網(wǎng)主要用于商品召回和最終商品推薦時的過濾。
算法評測
對于個性化推薦排序來說,設(shè)定可量化的目標(biāo)是非常重要的。
國美對算法的評估方式包括離線評測、在線A/B測試和算法覆蓋率測試。離線評測常用的評估指標(biāo)為AUC、Logloss和NDCG,其中AUC和Logloss主要評估分類的準(zhǔn)確率,而NDCG則是評估排序質(zhì)量的指標(biāo)。
實際效果
國美互聯(lián)網(wǎng)采用CTR/CVR/GMV來對推薦排序算法的實際效果進行評估。與傳統(tǒng)的推薦方法相比,使用機器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)后的個性化推薦排序給國美互聯(lián)網(wǎng)的GMV、點擊率和轉(zhuǎn)化率都帶來了更為顯著的提升。
2017年以來,憑借深度學(xué)習(xí)技術(shù),離線模型和實時排序模型的質(zhì)量大幅提升,尤其是1-5月份與2016年1-5月份相比提升效果十分顯著,推薦GMV提升70%、參與轉(zhuǎn)化率CVR提升100%。而CTR也有一組數(shù)據(jù)可供參考,采用個性化排序后,PC訂單頁“猜你喜歡”展位CTR提升幅度30.79%,PC首頁“猜你喜歡”展位CTR提升幅度14.16%。
大數(shù)據(jù)+機器學(xué)習(xí)&深度學(xué)習(xí)技術(shù)的力量著實驚人。
深度學(xué)習(xí)在國美的應(yīng)用實踐
自 2012 年ImageNet大賽技驚四座后,深度學(xué)習(xí)已經(jīng)成為近年來機器學(xué)習(xí)和人工智能領(lǐng)域中關(guān)注度最高的技術(shù)。
國美Plus拍照購
國美互聯(lián)網(wǎng)也展開了深度學(xué)習(xí)在圖像識別中的研究,并且已經(jīng)應(yīng)用于國美Plus的拍照購功能,它可以根據(jù)用戶上傳的圖片預(yù)測品類,推薦相關(guān)商品。
(點擊放大圖像)
當(dāng)用戶拍照或者從PC和手機選取商品圖片上傳成功以后,系統(tǒng)就會進行特征向量的計算及匹配。然后猜測用戶想要的商品,根據(jù)商品圖片庫的相關(guān)結(jié)果進行展示。
(點擊放大圖像)
圖像檢索流程可以分為四步,分別是圖像標(biāo)注、提取特征、降維和匹配檢索。
- 圖像標(biāo)注:對國美全站的商品圖像進行標(biāo)注,最主要的工作是數(shù)據(jù)清洗,即把不能和品類對應(yīng)的圖片刪除或者重新進行品類校準(zhǔn);先統(tǒng)計國美全站最近一年內(nèi)各品類下商品總數(shù)的分布,然后按照分布進行圖片抽樣。
- 提取特征:圖片的特征分為通過深度學(xué)習(xí)得到的特征和圖像局部特征。可利用caffe對CNN進行訓(xùn)練,將倒數(shù)第二層輸出作為 Feature Learning 的結(jié)果提取出來(Deep Learning + Transfer Learning);可利用局部特征算子(SIFT、kaze等)提取出圖像的局部特征。
- 降維:用積量化等方法對深度學(xué)習(xí)特征和圖像局部特征進行編碼和降維。
- 匹配檢索:采用最近鄰搜索的方法找出每一個商品的相似商品集合。
圖像識別與推薦
基于拍照購,國美還將圖像識別融合到了個性化推薦、相似推薦和搭配購?fù)扑]中。
用戶行為+商品內(nèi)容=更精確的推薦
楊驥認(rèn)為,電商領(lǐng)域傳統(tǒng)的基于用戶行為構(gòu)建個性化推薦系統(tǒng)存在一定的局限性。
基于用戶行為的推薦系統(tǒng)以用戶的瀏覽、點擊、收藏、關(guān)注、加入購物車、下單等行為作為數(shù)據(jù)基礎(chǔ),來分析用戶可能的購物傾向。對于用戶來說,從進入網(wǎng)站或APP開始瀏覽商品、到考慮是否購買、最終到下單是一個連續(xù)的過程,但對于算法工程師來說得到的只是日志中幾個離散的記錄,信息量嚴(yán)重不足,通過這些有限的信息難以推測用戶完整的購物決策過程。楊驥認(rèn)為,除了用戶行為,還應(yīng)該重點考慮商品的內(nèi)容(比如商品信息主圖、商品詳情頁圖片、標(biāo)題、廣告用語和風(fēng)格等)能夠?qū)τ脩舢a(chǎn)生多大的沖擊。目前國美互聯(lián)網(wǎng)推薦團隊的工作更多地側(cè)重于內(nèi)容方面。
國美互聯(lián)網(wǎng)搜索推薦團隊利用深度學(xué)習(xí)技術(shù)(如CNN卷積神經(jīng)網(wǎng)絡(luò)、目標(biāo)檢測等)對商品主圖、詳情頁圖片進行分析和描述,將圖片(非結(jié)構(gòu)化數(shù)據(jù))轉(zhuǎn)成文字(結(jié)構(gòu)化數(shù)據(jù))并存放到數(shù)據(jù)庫里,以便后續(xù)分析時調(diào)用。他們由此構(gòu)建了一個基于圖像識別的相似召回模型,將其與基于用戶行為的召回模型融合在一起,在此基礎(chǔ)上進行線上交互。如此一來得到了更多刻畫用戶、刻畫商品的維度,提升了召回模型的精準(zhǔn)度和多樣性,效果優(yōu)于僅僅關(guān)注用戶的點擊、關(guān)注、購買等行為。
“推薦系統(tǒng)并非0和1的問題,而是要最大化用戶購買概率。先滿足80%用戶的大體需求,然后再對20%的用戶進行精細(xì)的需求雕刻。”
遷移學(xué)習(xí)輔助小數(shù)據(jù)集訓(xùn)練
利用機器學(xué)習(xí)和深度學(xué)習(xí)構(gòu)建推薦場景時,最大的難點是數(shù)據(jù)源頭,而深度學(xué)習(xí)對訓(xùn)練數(shù)據(jù)量要求很高,并不是每個機器學(xué)習(xí)問題都有足夠多的訓(xùn)練數(shù)據(jù)。因此國美也嘗試將深度學(xué)習(xí)與遷移學(xué)習(xí)(Transfer Learning)結(jié)合起來。
仍以拍照購功能為例,拍照購涉及到圖像相似性檢索的問題。而已經(jīng)有很多人針對已有的海量數(shù)據(jù)訓(xùn)練出了不同任務(wù)場景下的模型,因此我們可以借助別人訓(xùn)練好的模型,在國美互聯(lián)網(wǎng)商品庫中再次訓(xùn)練并進行精調(diào),使模型達(dá)到應(yīng)用所需的要求。
未來的挑戰(zhàn)
目前,國美大數(shù)據(jù)中心正在進行國美深度學(xué)習(xí)云平臺(Gome CloudDL)的開發(fā),使之能夠支持各業(yè)務(wù)線在風(fēng)控、圖像分類、自然語言處理、人臉識別、推薦、搜索、廣告等場景下的需求。Gome CloudDL基于TensorFlow和Docker搭建,能夠?qū)崿F(xiàn)多任務(wù)資源的隔離、基于Kubernetes的調(diào)度、模型的持久化存儲、TensorFlow與Spark無縫集成等功能。
拍照購項目會繼續(xù)在圖像分割、實拍圖處理、深度學(xué)習(xí)模型壓縮、分布式搜索等方面進行優(yōu)化,提高召回精度。
除了在召回模型中使用CNN,我們接下來會嘗試?yán)肦NN來“捕捉”用戶在點擊序列中的模式,即利用用戶點擊行為發(fā)生先后順序進行推薦和搜索的展示排序。同時還會進行深度強化學(xué)習(xí)(Deep Reinforcement Learning)的算法開發(fā),根據(jù)用戶所處的場景,在交互的過程中動態(tài)地推薦商品、活動、主題等,將傳統(tǒng)的“商品推薦”升級成“場景式推薦”。
國美互聯(lián)網(wǎng)大數(shù)據(jù)中心如同人工智能技術(shù)在國美的一片試驗田,還有更多創(chuàng)新項目將在這里孵化。未來道阻且長,但探索的腳步不會停下。
轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/articles/8530008.html
總結(jié)
以上是生活随笔為你收集整理的深度学习打造精准推荐系统,细说国美互联网AI发展的进击之路的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 高并发场景下的httpClient优化使
- 下一篇: No operations allowe