SDCC 2015算法专场札记:知名互联网公司的算法实践
SDCC 2015算法專場札記:知名互聯網公司的算法實踐
發表于4小時前|526次閱讀| 來源作者投稿|0 條評論| 作者張俊林
SDCC算法架構大數據京東騰訊 摘要:11月21日,為期三天的SDCC2015中國軟件開發者大會成功閉幕,我們特邀請了業內專家、與會者分享他們的聽課感受及他們眼中的算法專場。本文是來自暢捷通公共服務部總監張俊林的參加算法專場的聽課札記,以饗讀者。【編者按】11月21日,為期三天的SDCC2015中國軟件開發者大會成功閉幕,主辦方總計邀請了95余位演講嘉賓,為參會者奉獻了10個主題演講,9大技術專場論壇(80余場技術演講),另外還有5場特色活動。另外,據官方統計參會人數高達1067名(不含工作人員)。其中21日的算法專場,現場聽講人數一度爆滿,而沒有機會親臨現場的童鞋們,我們特邀請了業內專家、與會者分享他們的聽課感受及他們眼中的算法專場。以下是來自暢捷通公共服務部總監張俊林的參加算法專場的聽課札記,以饗讀者。日前,筆者也采訪了算法大牛張俊林,內容詳實,文章:《專訪張俊林:十年程序員的感悟與算法之路》。
另外,我們在算法專場舉辦的當天也做了直播,大家也不妨一看我們的視角:【SDCC 2015現場】算法實踐論壇(上):網易、京東、騰訊的算法優化實踐、【SDCC 2015現場】算法實踐論壇(下):解讀大數據創新與個性化算法系統。
以下為張俊林的聽課札記:
2015年11月19-21日,由CSDN重磅打造的2015中國軟件開發者大會在西山附近的朗麗姿西山花園酒店舉行,盡管當天下著小雨,氣候陰冷,但是會場內氣氛十分熱烈。
來自阿里巴巴、騰訊、京東、愛奇藝、美團等互聯網公司的算法專家在算法實踐分論壇分享了各自的技術經驗。
網易技術副總監鞠奇:Query優化實踐
來自網易的鞠奇分享了之前在電子商務網站當當工作時有關搜索引擎查詢優化的一些工作。搜索引擎有些查詢會搜不到結果,為了改善搜索體驗,此時搜索引擎會對用戶查詢進行智能改寫,對無搜索結果的查詢進行形式上的變換來改善搜索體驗。
對于高頻的無搜索結果查詢來說,因為有大量的用戶查詢日志可以用以挖掘,所以一般可以將查詢改寫看作一個排序問題。首先根據一定手段找出與無搜索結果查詢語義相近的候選查詢集合,一般通過對搜索引擎用戶搜索日志進行“Session切分”,找出和無搜索結果查詢共獻高的其它查詢來構造這個候選集。第二步就是如何對這些候選集內的查詢串進行排序的問題。鞠奇介紹了兩種排序機制,一種是無監督的基于特征對候選查詢進行投票的方式,另外一種是采用有監督的機器學習排序(Learning?to?Rank)。而最典型的特征包括無搜索結果查詢和候選查詢之間的字面相似性、兩者在Session中的距離、候選查詢的熱門程度等。
對于長尾的無搜索結果查詢來說,因為搜索的用戶少,所以可以直接利用的用戶行為數據很有限。對于這種情況,鞠奇介紹了他們提出的“最大權重,最小距離”的查詢改寫思路。基本思想是首先把無搜索結果查詢中的單詞根據類似于TFIDF的思路進行賦權,保留高權值單詞,然后根據這些保留特征詞找到其它語義相近的查詢集合,計算這些查詢和無搜索結果查詢的語義距離,選擇語義距離最近的作為改寫后的查詢。
京東商城搜索推薦部總監劉思喆:京東商城推薦系統應用實踐
推薦系統在電子商務網站的廣泛使用是個常態,京東商城也不例外,目前京東已有80多款推薦產品,遍布用戶網購的各個環節都存在相應的推薦服務。京東搜索推薦部總監劉思喆介紹了京東商城推薦系統的使用狀況,其整體體系結構如圖1所示,這是一個非常典型的工業界推薦系統架構。由以HDFS作為基礎存儲平臺的離線挖掘系統、用戶行為實時收集并處理的近線系統及在線推薦服務構成,推薦平臺提供了K近鄰、矩陣分解、圖模型等常見的推薦模型。劉思喆重點介紹了在將商品放入購物車后推薦相關商品這一場景下如何使用CTR預估的方式進行推薦功能的開發。
圖1 京東商城推薦系統架構
騰訊廣點通核心工程師嚴浩:Peacock:大規模主題模型及其在騰訊業務中的應用
以LDA為代表的主題模型(圖2)在實際應用中有很廣泛的用途,可以用來對文檔的隱含語義進行建模,從而用來推導文檔所屬語義類別概率分布。但是LDA存在計算速度慢、很難處理大規模數據、Topic數量受限等若干實際使用中的問題。學術界和工業界也一直致力于對這些問題進行改進,典型的例子比如SparseLDA/LightLDA等。Peacock是騰訊在主題模型方面改進的技術方案,騰訊廣點通核心工程師嚴浩介紹了主題模型的基本推導思路以及Peacock是如何對LDA面臨的問題進行改進的,并介紹了Peacock在騰訊的廣告相關性計算、QQ群推薦及文本語義分析等應用的實際使用。
為了提升LDA的Gibbs采樣計算效率,Peacock采用SparseLDA來進行采樣,速度比常規LDA提升30倍。對于大規模文檔處理,則聯合采用了數據并行及模型并行思路,采用大規模并行處理機制,能夠支持億維級別的超大規模矩陣分解,且能計算百萬級別的不同主題。通過這些改進,切實改進了傳統LDA的實際可使用性。
圖2 LDA主題模型
TalkingData首席數據科學家張夏天:隨機非參數學習算法簡介
隨機決策樹方法是由Wei Fan等人提出的一種不包含屬性選擇過程的決策樹方法,也被稱作隨機樹集成方法。隨機決策樹作為一種不含有任何屬性選擇的決策樹構建方法,不僅可以作為一種分類和回歸方法使用,還可以作為集成學習中的基學習器使用。相對隨機決策樹,隨機決策森林是一種實踐中更經常使用的常用集成學習算法,兩者特性對比可參考圖3。TalkingData首席數據科學家張夏天在講座中重點根據自身經驗講解了使用哈希函數確定特征的方式來對隨機決策樹及隨機決策哈希函數算法進行高速并行改造,來快速提升算法效率。
圖3 算法比較
阿里巴巴搜索事業部算法專家嚴強:個性化算法IN雙11
2015年雙11天貓成交量高達912億,移動端占比68.67%,其中各個平臺的個性化推薦功能對于促進成交量起了非常重要的作用。來自阿里巴巴的算法專家嚴強介紹了支持阿里集團1000多個應用場景的電商個性化平臺TPP(參考圖4),該平臺具備易用且開發效率高、算法迭代效率高、及時反饋等優點。
嚴強重點介紹了其中的個性化推薦框架eTREC和實時排序框架Olive。eTREC是一個通用的協同過濾開發框架,封裝了基于用戶和基于商品的KNN算法以及基于內容的推薦算法,并對相似性計算等常用計算函數做了抽象,這使得該框架既具有快速開發推薦算法的優勢,比如可以一行代碼實現協同過濾算法;又具有根據用戶需求定制算法的可能;同時通過優化底層的MapReduce算法,使得框架運算效率更高。Olive是一個融合了實時流計算和在線學習的近實時機器學習系統,采用了典型的參數服務器架構,與MPI方案比,Olive無論在計算資源的節省方面還是訓練速度方面都有大幅提升。
圖4 阿里個性化算法系統
美團網數據組技術專家付晴川:機器學習在用戶畫像上的應用
利用用戶的各種行為數據來對用戶進行畫像,通過用戶畫像深入了解用戶的各方面特點,并使用用戶畫像來給用戶推薦更加個性化和精準的產品和服務,這也是目前的一個產品發展潮流。來自美團的數據技術專家付晴川介紹了在O2O應用場景下如何利用機器學習技術來對用戶進行畫像(圖5)。
同樣的,美團用戶畫像挖掘系統也采用了大量的Hadoop生態系統產品,比如Flume/kafka等數據收集與分發系統,使用Spark和MR等計算系統來進行特征挖掘,使用Spark?MLLib/SKLearn/LibSVM等機器學習工具來進行算法開發等。通過挖掘出的用戶畫像標簽,在實際O2O產品中發揮了重要作用,比如“用戶是否有車”這一標簽應用在具體產品中使得下單率提升了5倍。
圖5?美團用戶畫像的應用場景
愛奇藝視頻推薦系統專家王敏:愛奇藝推薦系統架構與實踐
推薦系統目前已經在愛奇藝中發揮了非常重要的作用,覆蓋了各種終端的數十種應用場景,日均貢獻3.5億點擊量,占愛奇藝所有流量的30%。來自愛奇藝的推薦系統專家王敏分享了愛奇藝視頻推薦系統的技術架構以及一些典型應用場景。
愛奇藝推薦系統也采用了典型工業推薦系統的技術架構(圖6),由離線數據處理系統、近線準實時計算系統以及在線實時推薦三個部分構成。同時,他們也大量采用了Hadoop生態系統的開源系統,比如使用Flume進行日志收集、Kafka用于數據分發、HDFS和HBase存儲不同類型的數據、使用Storm和Spark進行推薦邏輯計算等。
圖6 愛奇藝推薦系統技術架構
時趣首席科學家王緒剛:如何利用“圖計算”實現大規模實時預測分析
社交挖掘也是目前比較火的一個研發方向,來自時趣的首席科學家王緒剛介紹了如何通過社交分析準確刻畫用戶特征,并應用在精準營銷等商業場景(圖7)。他重點介紹了自主研發的對消費者行為數據處理的實時圖計算引擎CrowdGraph的技術發展歷程,及其如何在社交場景下使用CrowdGraph挖掘用戶影響力、用戶親密度、用戶相似度等應用實例。
圖7 社交挖掘商業應用場景
(責編/錢曙光,關注架構和算法領域,尋求報道或者投稿請發郵件qianshg@csdn.net,交流探討可加微信qshuguang2008,備注姓名+公司+職位)
「CSDN 算法學習交流群」,內有SDCC 2015算法專場的講師等諸多算法大牛,如果你想進群交流,請加微信qshuguang2008申請入群,備注姓名+公司+職位。
作者簡介:張俊林,暢捷通公共服務部總監,曾經在阿里巴巴搜索技術中心、百度商務搜索部鳳巢廣告平臺以及新浪微博搜索部及數據系統部擔任資深技術專家,新浪微博技術委員會成員,負責算法策略方向。他還曾是智能信息聚合網站“玩聚網”的聯合創始人之一。
本文為CSDN原創文章,未經允許不得轉載,如需轉載請聯系market#csdn.net(#換成@)
總結
以上是生活随笔為你收集整理的SDCC 2015算法专场札记:知名互联网公司的算法实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 文本深度表示模型Word2Vec
- 下一篇: BOW模型在ANN框架下的解释