图神经网络PGL助力国民级音乐App,创新迭代千亿级推荐系统(人工智能应用案例)
每當(dāng)夜深人靜時(shí),你打開網(wǎng)易云音樂,或聽歌刷樂評(píng),或看直播閑聊,享受著以心交心的放松愉悅。在這背后,有一群技術(shù)人員苦思冥想地探索著,只為讓“云村”越來越懂你。
“不同于一般的聊天文本或圖片,音樂本身是跨域數(shù)據(jù),具備若干特征,數(shù)據(jù)維度非常多。而1.8億月活海量用戶的音樂相關(guān)數(shù)據(jù),帶來的計(jì)算量、推薦量、參數(shù)規(guī)模都巨大無比。”網(wǎng)易云音樂機(jī)器學(xué)習(xí)平臺(tái)技術(shù)團(tuán)隊(duì)意識(shí)到,在這樣復(fù)雜問題面前,傳統(tǒng)機(jī)器學(xué)習(xí)方法漸漸無力招架。
此外,云音樂的直播業(yè)務(wù)興起,商業(yè)化表現(xiàn)良好,團(tuán)隊(duì)的擔(dān)子更重了,“直播行為與音樂行為差異甚大,這意味著計(jì)算量與難度進(jìn)一步增加?!眽毫χ?#xff0c;該團(tuán)隊(duì)將目光瞄向“圖神經(jīng)網(wǎng)絡(luò)”,并最終選擇應(yīng)用百度飛槳PGL圖神經(jīng)網(wǎng)絡(luò)技術(shù)來迭代升級(jí)云音樂的推薦系統(tǒng)。
推薦系統(tǒng)為何需要圖神經(jīng)網(wǎng)絡(luò)?
作為全球知名音樂社區(qū),網(wǎng)易云音樂在繁榮發(fā)展的同時(shí),其推薦系統(tǒng)面臨三大難題:囊括音樂、歌單、Mlog、直播、云圈、動(dòng)態(tài)等的多域數(shù)據(jù);海量用戶產(chǎn)出的超大規(guī)模數(shù)據(jù);超30萬(wàn)音樂人發(fā)布歌曲,超28億用戶產(chǎn)生歌單,27%用戶交流/生產(chǎn)內(nèi)容構(gòu)成的動(dòng)態(tài)數(shù)據(jù)標(biāo)簽。
傳統(tǒng)的機(jī)器學(xué)習(xí)方法需要嚴(yán)格制定一套規(guī)范來提取樣本,逐項(xiàng)指定樣本的各個(gè)特征。但云音樂用戶產(chǎn)生的多域數(shù)據(jù),可能會(huì)有若干個(gè)特征,加上近2億的用戶規(guī)模以及高頻率的動(dòng)態(tài)更新,必須進(jìn)行巨量的計(jì)算,機(jī)器學(xué)習(xí)方法的訓(xùn)練效率因此大受限制,變得十分低效。
而圖神經(jīng)網(wǎng)絡(luò)技術(shù)的約束性較小,把每個(gè)用戶當(dāng)做點(diǎn),用戶的標(biāo)簽作為邊,不同用戶之間基于點(diǎn)和邊的關(guān)聯(lián)形成網(wǎng),在此基礎(chǔ)上建模分析,因此能更高效地表征、篩選某一類用戶。比如,當(dāng)兩位素不相識(shí)的寶媽,同樣愛聽某些親子歌曲時(shí),她們?cè)凇皥D”中就有可觸達(dá)的連接,模型會(huì)根據(jù)這些連接關(guān)系學(xué)習(xí)出合適的表征,并把這些親子歌曲推薦給相似的用戶群體。
事實(shí)上,圖神經(jīng)網(wǎng)絡(luò)已經(jīng)成為目前互聯(lián)網(wǎng)企業(yè)高效表征用戶與內(nèi)容結(jié)構(gòu)的關(guān)鍵技術(shù)。既能基于用戶在歌曲、歌單、動(dòng)態(tài)、Mlog等各方面的跨域行為聯(lián)合建模;又能支持多種行為子圖,如深挖用戶在歌曲方面的播放、點(diǎn)贊行為;并支持載入用戶節(jié)點(diǎn)的畫像特征與內(nèi)容節(jié)點(diǎn)的類型特征;還支持靈活擴(kuò)展,如適用音樂業(yè)務(wù)場(chǎng)景的圖神經(jīng)網(wǎng)絡(luò)應(yīng)用能很方便地遷移改造用來支持直播業(yè)務(wù)場(chǎng)景。
飛槳PGL圖神經(jīng)網(wǎng)絡(luò)的三大領(lǐng)先能力
市面上提供圖神經(jīng)網(wǎng)絡(luò)技術(shù)的廠商不少,說起選擇百度飛槳PGL的原因,網(wǎng)易云音樂機(jī)器學(xué)習(xí)平臺(tái)技術(shù)團(tuán)隊(duì)總結(jié)了三點(diǎn):飛槳PGL支持超大規(guī)模數(shù)據(jù)的全圖存儲(chǔ)、子圖檢索、高效圖學(xué)習(xí)三大領(lǐng)先能力。
團(tuán)隊(duì)曾經(jīng)嘗試過多家國(guó)內(nèi)外頂級(jí)廠商的圖神經(jīng)網(wǎng)絡(luò)技術(shù),其中兩家國(guó)際大廠的產(chǎn)品沒有現(xiàn)成的分布式編程范式,無法高效地處理超大規(guī)模圖模型訓(xùn)練當(dāng)中遇到的圖存儲(chǔ)、分布式訓(xùn)練等問題,在單機(jī)層面頂多支持到千萬(wàn)級(jí)別或億級(jí)別,而到了百億甚至千億級(jí)別,只有飛槳PGL挺住了。
據(jù)介紹,云音樂的數(shù)據(jù)規(guī)模非常龐大,數(shù)據(jù)關(guān)系即使經(jīng)過裁剪也高達(dá)千億級(jí)別以上。而飛槳PGL技術(shù),原生支持分布式圖存儲(chǔ)和分布式采樣,可將圖的特征存儲(chǔ)在不同的Server上,也支持將不同子圖的采樣分布式處理,并基于PaddlePaddle Fleet API來完成分布式訓(xùn)練,實(shí)現(xiàn)在分布式的“瘦計(jì)算節(jié)點(diǎn)”上加速計(jì)算,因而能夠?yàn)樵埔魳诽幚砀哌_(dá)百億級(jí)別的大規(guī)模數(shù)據(jù)。
不僅如此,飛槳PGL實(shí)現(xiàn)了極低成本的大規(guī)模圖存儲(chǔ),這讓網(wǎng)易云音樂技術(shù)團(tuán)隊(duì)非常認(rèn)可?!帮w槳PGL的分布式圖存儲(chǔ)方案比較靈活,適合云音樂,能快速搭起若干個(gè)分布式網(wǎng)絡(luò),無需專業(yè)數(shù)據(jù)庫(kù)存儲(chǔ)底層能力,存儲(chǔ)成本降低70%+?!痹?億節(jié)點(diǎn)與400億邊數(shù)據(jù)這樣的場(chǎng)景下,飛槳PGL的分布式圖引擎資源,以60彈性節(jié)點(diǎn)(4CPU,16GB)的配置,可提供比中心化數(shù)據(jù)庫(kù)更簡(jiǎn)單、更靈活的存儲(chǔ)服務(wù)。
再者,他們團(tuán)隊(duì)還體驗(yàn)到飛槳PGL的另一個(gè)優(yōu)點(diǎn),即靈活的子圖檢索模式。飛槳PGL不僅預(yù)置常用模式,同時(shí)聯(lián)動(dòng)分布式圖存儲(chǔ)引擎,支持自定義子圖檢索模式,更符合業(yè)務(wù)實(shí)際需求,使用起來更順手更高效。
飛槳PGL給網(wǎng)易云音樂技術(shù)團(tuán)隊(duì)印象最深的一次是,用不到30多臺(tái)閑置老舊CPU機(jī)器在1天內(nèi)訓(xùn)練完100個(gè)epoch數(shù)百億邊的LightGCN模型。這在業(yè)內(nèi)人士聽來可能會(huì)有些不可思議?!耙菗Q成過去那種單機(jī)方案很難實(shí)現(xiàn),因?yàn)閮?nèi)存早已爆掉了,無法存儲(chǔ)這么巨大的圖?!眻F(tuán)隊(duì)成員介紹道,也許還有其他方案能實(shí)現(xiàn),但飛槳PGL的方案,性價(jià)比極高,適合大規(guī)模應(yīng)用。云音樂的推薦系統(tǒng)采用飛槳PGL技術(shù)后,在冷門歌曲分發(fā)、云村廣場(chǎng)、陌生人一起聽等多個(gè)細(xì)分業(yè)務(wù)場(chǎng)景的效率都有不同程度的顯著提升,最高甚至提升了近一倍。
可以說,飛槳PGL所提供的支持超大規(guī)模數(shù)據(jù)的極低成本全圖存儲(chǔ)、靈活子圖檢索、高效圖學(xué)習(xí)等能力,在云音樂的工業(yè)實(shí)踐中真正用下來,發(fā)現(xiàn)都是能夠滿足實(shí)際需要的。這正是飛槳平臺(tái)源于產(chǎn)業(yè)實(shí)踐,更適合產(chǎn)業(yè)應(yīng)用的最好證明。
飛槳PGL圖神經(jīng)網(wǎng)絡(luò)打開應(yīng)用新空間
基于超大規(guī)模復(fù)雜數(shù)據(jù)的用戶與內(nèi)容理解是許多互聯(lián)網(wǎng)內(nèi)容企業(yè)所面臨的共同課題。而飛槳PGL圖神經(jīng)網(wǎng)絡(luò)技術(shù)在網(wǎng)易云音樂的成功落地,佐證了自身作為企業(yè)可用的高性價(jià)比超大規(guī)模圖神經(jīng)網(wǎng)絡(luò)方案的強(qiáng)大實(shí)力,將助力這些企業(yè)高效、低成本地表征用戶與內(nèi)容,創(chuàng)建完善精準(zhǔn)推薦機(jī)制,做用戶的“知心人”,進(jìn)而催生新形態(tài)新模式,從中獲取商業(yè)收益。
接下來網(wǎng)易云音樂機(jī)器學(xué)習(xí)技術(shù)團(tuán)隊(duì)還將立足云音樂的實(shí)踐,探索圖神經(jīng)網(wǎng)絡(luò)技術(shù)與AI的深度融合創(chuàng)新,如構(gòu)建音樂社區(qū)的用戶和內(nèi)容理解中臺(tái),以及基于知識(shí)圖譜的圖神經(jīng)網(wǎng)絡(luò)落地應(yīng)用;并計(jì)劃與飛槳一起反哺開源社區(qū),助推圖神經(jīng)網(wǎng)絡(luò)技術(shù)在產(chǎn)業(yè)界廣泛落地。
總結(jié)
以上是生活随笔為你收集整理的图神经网络PGL助力国民级音乐App,创新迭代千亿级推荐系统(人工智能应用案例)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux 看ip地址(linux看ip
- 下一篇: linux开发环境搭建实验报告(linu