腾讯看点投放系统介绍:推荐系统的进化伙伴
大家好,我叫陳鵬,來自騰訊。
前三位老師講得都很有深度,干貨滿滿。相比于前三位老師的深度,我今天分享的主題將會輕松一些,主要跟大家介紹騰訊看點(diǎn)在投放系統(tǒng)的探索,沒有學(xué)術(shù)和深刻的原理,也沒有目錄,這里只有故事,跟著我的 PPT 一起開啟一段故事吧。
在介紹投放系統(tǒng)之前,我想做個(gè)簡單的調(diào)查,有多少人用過信息流產(chǎn)品?比如騰訊看點(diǎn)、今日頭條等等。還挺多,那再問一下,在瀏覽信息流的時(shí)候,有多少人看到過令自己反感的內(nèi)容?發(fā)現(xiàn)剛剛舉手的同學(xué)基本也都舉了手。這說明信息流中出現(xiàn)低質(zhì)內(nèi)容還是件挺常見的事,那該如何解決呢?這其實(shí)是一件很難的事情,我們信息流的同學(xué)一直都在探索,其中投放系統(tǒng)就是探索的產(chǎn)物之一。
要說投放系統(tǒng),推薦系統(tǒng)是繞不開的,因?yàn)橥斗畔到y(tǒng)就是為了解決推薦系統(tǒng)的問題而誕生的。那什么是推薦系統(tǒng)呢?剛剛潘老師已經(jīng)做了非常詳細(xì)和深入的講解,我這里就簡化一下。
大家想象一下,現(xiàn)在有一位用戶打開了信息流產(chǎn)品,那接下來會發(fā)生什么?前端會去請求后臺,后臺又會去請求推薦系統(tǒng),推薦系統(tǒng)再去內(nèi)容池翻箱倒柜,找?guī)灼@名用戶最有可能喜歡的內(nèi)容。那推薦系統(tǒng)是怎么知道用戶喜歡什么類型的內(nèi)容的呢?用戶畫像,每名用戶身上都會有一些標(biāo)簽,表示喜歡或者討厭什么,比如這名用戶的畫像顯示他比較喜歡王者榮耀、財(cái)經(jīng)、體育等等。每篇內(nèi)容也都有自己的標(biāo)簽,表示這是什么樣的內(nèi)容。推薦系統(tǒng)要做的呢,就是將用戶和內(nèi)容相互匹配,比如這名用戶的畫像里有“王者榮耀”,那么推薦系統(tǒng)就會給他推薦王者榮耀的內(nèi)容。
小結(jié)一下,推薦系統(tǒng)做的事呢,就是將用戶信息和內(nèi)容信息互相匹配,然后將匹配的結(jié)果推薦給用戶,就是推薦結(jié)果。這樣會有什么問題嗎?如果這是一名新用戶,沒有畫像,那應(yīng)該怎么辦呢?推薦系統(tǒng)有一個(gè)內(nèi)容池,專門給這些新用戶準(zhǔn)備的,因?yàn)檫@里面的內(nèi)容是機(jī)器篩選的,所以不乏一些標(biāo)題黨、擦邊球的內(nèi)容,用戶看到這類內(nèi)容時(shí),雖然眉頭一皺,但還是經(jīng)常忍不住去點(diǎn)擊,不點(diǎn)不打緊,就這么一點(diǎn),誤會大了,推薦系統(tǒng)就會認(rèn)為這名用戶喜歡這類內(nèi)容,后面就會使勁給用戶推類似的內(nèi)容,用戶雖然很反感,但又忍不住不看,所以就會形成惡性循環(huán),等到用戶失去耐心的時(shí)候,就不會再用這款產(chǎn)品了。
那如何打破這種惡性循環(huán)呢?一種方式是人為干預(yù),機(jī)器可能會傻乎乎給你推送看似受歡迎實(shí)際比較低質(zhì)的內(nèi)容,但我們的運(yùn)營同學(xué)只會精選優(yōu)質(zhì)內(nèi)容,然后連同推薦系統(tǒng)給的結(jié)果一起推送給用戶,那這樣用戶是不是就可以看到優(yōu)質(zhì)內(nèi)容了呢?
現(xiàn)在再來看請求數(shù)據(jù)的過程,用戶訪問信息流產(chǎn)品時(shí),前端會向后臺請求,跟之前不同的是,這時(shí)后臺會向混排層請求,混排層一方面跟推薦系統(tǒng)請求推薦結(jié)果,比如推薦系統(tǒng)推薦了兩篇跟王者榮耀有關(guān)的內(nèi)容;另一方面混排層會查詢一下運(yùn)營同學(xué)有沒有人工推薦的內(nèi)容,比如這里運(yùn)營同學(xué)人工推薦了這篇跟《三十而已》有關(guān)的內(nèi)容。混排層收到推薦系統(tǒng)和運(yùn)營配置的內(nèi)容后,根據(jù)一定規(guī)則混合排列兩邊的數(shù)據(jù),然后再將數(shù)據(jù)一起返回給前端用戶。這樣用戶就可以看到推薦同學(xué)精選的優(yōu)質(zhì)內(nèi)容了。
我們繼續(xù)追問,這樣做會有什么問題嗎?內(nèi)容是好內(nèi)容,但不一定所有人都喜歡,比如剛剛說的,運(yùn)營同學(xué)推薦了《三十而已》的內(nèi)容,但其實(shí)會有相當(dāng)一部分用戶并不喜歡。每個(gè)曝光機(jī)會都很重要,特別是前幾條,用戶如果不喜歡《三十而已》,那就不會去點(diǎn)擊,勢必會導(dǎo)致大盤數(shù)據(jù)的下跌。那該怎么辦呢?如果我們能夠提高運(yùn)營推送的準(zhǔn)確性,把不同的優(yōu)質(zhì)內(nèi)容推送給那些大概率會感興趣的用戶那里,那是不是就既能解決大盤數(shù)據(jù)下跌,又能解決運(yùn)營給用戶推送優(yōu)質(zhì)內(nèi)容的問題了呢?
那如何提高運(yùn)營推送的準(zhǔn)確性呢?秘訣就是我們今天的主角:投放系統(tǒng)。投放系統(tǒng)所做的工作,用一句話概括就是,把運(yùn)營同學(xué)認(rèn)為優(yōu)質(zhì)的內(nèi)容盡可能準(zhǔn)確地投放給那些可能感興趣的用戶。這里面有兩個(gè)要點(diǎn),第一,投放什么內(nèi)容?第二,內(nèi)容投放給什么用戶?分別來看。
第一要點(diǎn),投放什么內(nèi)容。投放系統(tǒng)投放的內(nèi)容也是經(jīng)過入庫服務(wù)后進(jìn)入到內(nèi)容池的那些內(nèi)容,我們的運(yùn)營同學(xué)會在內(nèi)容池中挑選出優(yōu)質(zhì)的內(nèi)容,并且把它們進(jìn)行歸類。運(yùn)營同學(xué)會根據(jù)他們的需要將這些優(yōu)質(zhì)內(nèi)容聚合在一起,這些根據(jù)一定規(guī)則聚合的內(nèi)容被稱為“興趣點(diǎn)”,這里的規(guī)則可以指同一個(gè)賬號、同一個(gè)品類、同一個(gè)主題、同一個(gè)話題等等等等,只要我們的運(yùn)營同學(xué)認(rèn)為有相同點(diǎn),就可以把這些內(nèi)容聚合在一起。我們舉些例子,著名歌手胡夏就是一個(gè)賬號,品類的話比如美食品類,主題的話比如漫威,話題的話比如最近非常火的《三十而已》,這里的“胡夏”、“美食”、“漫威”、“三十而已”都是興趣點(diǎn)。我們可以看到,興趣點(diǎn)的劃分實(shí)際上沒有什么規(guī)則,粒度可大可小,維度靈活多樣。小結(jié)一下,投放系統(tǒng)投放的內(nèi)容是以興趣點(diǎn)作為維度的,興趣點(diǎn)是一個(gè)抽象的概念,代表相同種類的內(nèi)容。
說完第一個(gè)要點(diǎn),那繼續(xù)說第二個(gè)要點(diǎn):內(nèi)容投放給什么用戶?我們剛剛說到,內(nèi)容是按照一定的相同點(diǎn)聚合在一起的,投放系統(tǒng)的工作就是把這類內(nèi)容投放給可能感興趣的用戶。說到這里,我們可以更好地看出把內(nèi)容聚合在一起的好處了,為一篇內(nèi)容找到目標(biāo)用戶是很困難的,但為一類內(nèi)容找到目標(biāo)用戶就簡單許多。
說回內(nèi)容應(yīng)該投放給什么用戶,一開始投放系統(tǒng)其實(shí)也不知道,但是它會不斷地探索,找到目標(biāo)消費(fèi)者。針對每一個(gè)興趣點(diǎn),投放系統(tǒng)會試探性地給一些用戶投放這個(gè)興趣點(diǎn)里面的內(nèi)容,拿《三十而已》這個(gè)興趣點(diǎn)舉例,假設(shè)投放系統(tǒng)每天會給一批用戶投放5篇左右《三十而已》的內(nèi)容,有的用戶對這個(gè)話題不感興趣,可能一條都不會點(diǎn),有的用戶就比如我知道這么個(gè)話題,持中立態(tài)度,可能會點(diǎn)一兩篇看一下,而有的用戶如果是《三十而已》的忠誠粉絲,那很可能四五篇都會點(diǎn)。投放系統(tǒng)有一套算法,會根據(jù)用戶的點(diǎn)擊情況打分,將用戶分成非受眾、相關(guān)用戶和核心用戶三類。這是第一天的情況,投放系統(tǒng)會針對每一個(gè)興趣點(diǎn)圈出一部分用戶進(jìn)行探索,然后根據(jù)探索結(jié)果將用戶分成這個(gè)興趣點(diǎn)的非受眾、相關(guān)用戶和核心用戶三種類別。那第二天、第三天,一直持續(xù)探索,是不是就可以在茫茫人海中圈出這個(gè)興趣點(diǎn)越來越多的相關(guān)用戶和核心用戶了呢?確實(shí)是的,而這兩類用戶正是這個(gè)興趣點(diǎn)的重要資產(chǎn)。
當(dāng)一個(gè)興趣點(diǎn)剛剛創(chuàng)建的時(shí)候,它是沒有任何相關(guān)用戶或者核心用戶的,那我們就需要去探索,哪些用戶可能對這個(gè)興趣點(diǎn)感興趣。那怎么探索呢?一種方法就是隨機(jī)探索,隨便選一些用戶,然后給他們投放內(nèi)容,毫無疑問,這樣的效率肯定很低。有沒有效率更高的方式呢?這里挑三種方法給大家介紹一下,分別是:人工探索、機(jī)器探索和策略匹配。
先來看人工探索。無論玩過沒玩過,相信很多人應(yīng)該知道地下城與勇士這款游戲,最近呢,地下城與勇士的手游將要上線,不過我們不談游戲,只談由游戲衍生出的內(nèi)容。新款手游的上線肯定會產(chǎn)生很多相關(guān)的優(yōu)質(zhì)內(nèi)容,我們的運(yùn)營同學(xué)敏銳地抓住了這一點(diǎn),提前在投放系統(tǒng)里面創(chuàng)建了一個(gè)叫“地下城與勇士手游”的興趣點(diǎn)。問題來了,內(nèi)容有了,目標(biāo)用戶呢?不要慌,我們運(yùn)營同學(xué)的專業(yè)經(jīng)驗(yàn)就能派上用場了,他們會定幾個(gè)篩選條件,比如性別、年齡、收入等等,然后篩選出最有可能喜歡“地下城與勇士手游”的用戶,比如性別選擇男性、年齡選擇15-35歲之間,地域選擇一線城市、操作系統(tǒng)選擇不限、收入水平選擇月薪8000以上、用戶標(biāo)簽選擇游戲動漫類的。設(shè)定的這些條件,大大提高了探索的準(zhǔn)確性,這就是人工探索的基本原理。
那我們的運(yùn)營同學(xué)是如何知道用戶的性別、年齡這些信息的呢?用戶畫像。目前我們用到的畫像有兩類,一類是騰訊看點(diǎn)自己的用戶畫像,比如財(cái)經(jīng)、動漫、時(shí)尚等等,另一類是其他業(yè)務(wù)的用戶畫像。比如IEG游戲畫像、騰訊視頻畫像、QQ音樂畫像等等。小結(jié)一下,人工探索是依賴于運(yùn)營專業(yè)經(jīng)驗(yàn)的一種探索興趣點(diǎn)新用戶的投放方式。
說完人工探索,我們繼續(xù)看機(jī)器探索。我們剛剛提到,當(dāng)一個(gè)興趣點(diǎn)剛剛創(chuàng)建的時(shí)候沒有核心用戶或者相關(guān)用戶,經(jīng)過運(yùn)營同學(xué)的篩選圈定一部分用戶進(jìn)行探索后,這個(gè)興趣點(diǎn)會沉淀一些核心用戶和相關(guān)用戶,我們用藍(lán)色的小人表示。所謂物以類聚人以群分,這部分用藍(lán)色表示的用戶一定有一些共同的特征,我們把這些共同的特征提取出來,然后在大盤里找具有這些特征的用戶,再把他們篩選出來作為我們的探索用戶。這些探索用戶是機(jī)器算法篩選出來的,所以被稱為機(jī)器探索。小結(jié)一下,機(jī)器探索是依賴機(jī)器算法的一種探索興趣點(diǎn)新用戶的投放方式。
以上是機(jī)器探索,我們繼續(xù)看策略匹配。假設(shè)有一名用戶在QQ里面搜索了“地下城與勇士”,我們是不是很自然地認(rèn)為這名用戶對“地下城與勇士”感興趣呢?那這名用戶當(dāng)仁不讓地成了“地下城與勇士手游”這個(gè)興趣點(diǎn)的探索用戶。這名用戶搜索的時(shí)候,觸發(fā)了我們一條具體的策略:“搜索地下城與勇士”,這里搜索是行為,地下城與勇士是關(guān)鍵詞,搜索某個(gè)關(guān)鍵詞就是我們的一種策略。策略就是觸發(fā)特定信號的行為,目前我們設(shè)置了六種策略,當(dāng)然我們一直在探索其他的策略。每個(gè)興趣點(diǎn)話可能會設(shè)置一些策略,如果觸發(fā)了這些策略,就會成為這個(gè)興趣點(diǎn)的探索用戶。
以上就是我們采用的其中三種探索策略:人工探索、機(jī)器探索和策略匹配。
對于每個(gè)興趣點(diǎn)來說,投放系統(tǒng)每天會探索出一批可能對這個(gè)興趣點(diǎn)感興趣的用戶,然后給他們投放幾篇這個(gè)興趣點(diǎn)里面的內(nèi)容。有的用戶一篇沒點(diǎn),就是這個(gè)興趣點(diǎn)的非受眾;有的用戶偶爾點(diǎn)一兩篇,就成為了這個(gè)興趣點(diǎn)的相關(guān)用戶;而有的用戶可能閱讀了大部分內(nèi)容,就成為了這個(gè)興趣點(diǎn)的核心用戶。核心用戶和相關(guān)用戶是這個(gè)興趣點(diǎn)沉淀下來的重要資產(chǎn)。那這是不是一錘子買賣呢?核心用戶永遠(yuǎn)就是核心用戶,相關(guān)用戶永遠(yuǎn)就是相關(guān)用戶呢?想象一下,如果第一天給一名用戶投放了5篇某個(gè)興趣點(diǎn)的內(nèi)容,這名用戶讀了4篇,那他就會被系統(tǒng)判定為這個(gè)興趣點(diǎn)的核心用戶。投放系統(tǒng)每天除了會給探索用戶投放內(nèi)容,還會持續(xù)地給以前沉淀下來的核心用戶和相關(guān)用戶投放內(nèi)容。如果第二天、第三天持續(xù)給這名核心用戶投放這個(gè)興趣點(diǎn)里的內(nèi)容,但這名用戶可能一篇都沒有點(diǎn)擊,我們的系統(tǒng)就會調(diào)整他的評分,可能會把他降為這個(gè)興趣點(diǎn)的相關(guān)用戶甚至非受眾。所以用戶的身份其實(shí)并不是一成不變的,這是一個(gè)動態(tài)的變化過程。
回顧一下剛剛所講的內(nèi)容。興趣點(diǎn)是按照一定規(guī)則聚合的內(nèi)容,投放系統(tǒng)的目標(biāo)是為興趣點(diǎn)找到目標(biāo)用戶,興趣點(diǎn)剛剛創(chuàng)建的時(shí)候,投放系統(tǒng)也不知道這個(gè)興趣點(diǎn)的目標(biāo)用戶有哪些,所以需要去探索。這里介紹了三種投放系統(tǒng)探索新用戶的方式:人工探索、機(jī)器探索和策略匹配。所謂的探索就是尋找可能對這個(gè)興趣點(diǎn)感興趣的用戶,然后給他們投放內(nèi)容來驗(yàn)證他們喜歡這個(gè)興趣點(diǎn)的程度,根據(jù)程度,我們把用戶分成核心用戶、相關(guān)用戶和非受眾,我們的目標(biāo)是找到更多的核心用戶和相關(guān)用戶。
這一切看起來挺完美的,那有沒有什么問題呢?假設(shè)第一個(gè)興趣點(diǎn)先去探索,探索出了一批用戶,第二個(gè)興趣點(diǎn)再去探索,又探索出一批用戶,第三個(gè)興趣點(diǎn)還去探索,又探索出一批用戶。活躍用戶看的內(nèi)容多,身上積累的畫像多,越是可能會被系統(tǒng)判定為探索用戶,這樣的話,很多興趣點(diǎn)都會去把活躍用戶探索一遍,然后宣稱這些用戶是這個(gè)興趣點(diǎn)的核心用戶或者相關(guān)用戶。這樣會導(dǎo)致各個(gè)興趣點(diǎn)始終圍繞著活躍用戶探索,對長尾的用戶探索遠(yuǎn)遠(yuǎn)不夠,,不利于增加長尾用戶的活躍度和粘性。
那有什么辦法可以解決呢?這里介紹一種我們采用的策略:設(shè)置探索用戶的互斥性。現(xiàn)在探索的方式就變成了,第一個(gè)興趣點(diǎn)探索了一部分用戶,第二個(gè)興趣點(diǎn)探索時(shí)需要避開第一個(gè)興趣點(diǎn)探索出的核心用戶和相關(guān)用戶,第三個(gè)興趣點(diǎn)探索時(shí)需要避開之前興趣點(diǎn)探索出的用戶。這樣就強(qiáng)制后面的興趣點(diǎn)在探索用戶時(shí),能夠盡量把探索范圍往長尾低活用戶偏移。
剛剛我們一直在聊投放系統(tǒng),那推薦系統(tǒng)和投放系統(tǒng)是什么關(guān)系呢?
首先,這兩個(gè)系統(tǒng)有個(gè)本質(zhì)的差別。一個(gè)用戶打開騰訊看點(diǎn)或者其他的信息流產(chǎn)品,是希望推薦能夠給自己推薦幾篇感興趣的內(nèi)容,這是一個(gè)用戶主動尋找內(nèi)容的過程。而投放系統(tǒng)呢,恰好相反,運(yùn)營同學(xué)覺得系統(tǒng)里面有很多優(yōu)質(zhì)的長尾內(nèi)容沒有被推薦出去,想要給這些優(yōu)質(zhì)內(nèi)容找到合適的用戶群體,所以這是一個(gè)內(nèi)容找人的過程。
另一方面,投放系統(tǒng)又深刻地影響著推薦系統(tǒng),我們從兩個(gè)方面來看。第一方面是用戶維度,當(dāng)用戶消費(fèi)了投放系統(tǒng)投放的內(nèi)容的時(shí)候,他的用戶畫像就會受到影響,比如投放系統(tǒng)給用戶投放了幾篇《三十而已》的內(nèi)容,用戶消費(fèi)了之后,身上的畫像會更新,就會帶有“三十而已”的標(biāo)簽,這種畫像會被推薦系統(tǒng)所采用,所以后面推薦系統(tǒng)也會給這名用戶推薦更多的“三十而已”的內(nèi)容。投放系統(tǒng)影響推薦系統(tǒng)的第二個(gè)方面是內(nèi)容維度,對于一些長尾冷門的內(nèi)容,我們的運(yùn)營如果覺得優(yōu)質(zhì)的話,會通過投放系統(tǒng)投放出去,如果投放的目標(biāo)人群比較準(zhǔn)確,那么很快就會有很多用戶閱讀這些內(nèi)容,推薦系統(tǒng)就會認(rèn)為這些內(nèi)容是熱門內(nèi)容,進(jìn)而進(jìn)行更大的推廣。
好的,我們回到一開始說的問題,因?yàn)橛脩酎c(diǎn)擊了幾篇低質(zhì)庸俗的內(nèi)容,推薦系統(tǒng)會誤以為用戶對這類內(nèi)容感興趣,然后就會持續(xù)地給用戶推薦類似的內(nèi)容,其實(shí)用戶可能并不是真的感興趣,相反很可能還很反感,只是忍不住點(diǎn)擊了而已,然后就會陷入惡性循環(huán)。其中的一種解決方案就是投放系統(tǒng),運(yùn)營會精選一些優(yōu)質(zhì)的長尾內(nèi)容,通過投放系統(tǒng)投放給用戶,這樣就可以打破惡性循環(huán),提高用戶的體驗(yàn)和粘性。
講到這里,關(guān)于投放系統(tǒng)的原理部分基本就介紹完了。聽起來好處多多,那如何量化投放系統(tǒng)帶來的收益呢?互聯(lián)網(wǎng)人常用的工具就是 A/B 測試。最后的幾分鐘,我想跟大家分享一下投放系統(tǒng)采用的 A/B 測試所暗含的玄機(jī)。
當(dāng)產(chǎn)品有了新功能之后,我們會選擇兩撥用戶,一撥用戶使用最新版本,另一撥用戶繼續(xù)使用舊版本。實(shí)驗(yàn)一段時(shí)間后,進(jìn)行實(shí)驗(yàn)分析,如果新版本效果好就會發(fā)布新版本,舊版本效果好就保持舊版本。實(shí)際的 A/B 測試過程非常復(fù)雜,剛剛伍老師跟我們做了深入的分享,我也不班門弄斧。我這里主要想跟大家分享一下的是選取樣本的方式。
QQ 中有個(gè)天然的用戶 ID 就是我們的 QQ 號,那如何選取兩撥用戶呢,一種方式就是對 QQ 號取模,比如模 100。那么根據(jù)取模的結(jié)果可以將用戶隨機(jī)分成了 100 份,結(jié)果為 65 的那撥用戶保持舊版本,結(jié)果為 66 的那撥用戶使用新版本,這兩撥用戶的 QQ 號分別以 65 結(jié)尾和以 66 結(jié)尾。這樣的做法真的好嗎?我們從兩方面來看。
第一方面,隨機(jī)嗎?看這兩撥用戶,一撥以 65 結(jié)尾另一撥以 66 結(jié)尾,需要注意的是 QQ 中是存在靚號的,而靚號是需要購買的,所以跟普通 QQ 號相比,靚號用戶的基本屬性、使用活躍度總體都要好。這兩撥用戶看起來是隨機(jī)分配的,兩者之間應(yīng)該基本沒有差異,但實(shí)際上以 66 結(jié)尾的用戶很多都是靚號,這種內(nèi)在的差異會影響實(shí)驗(yàn)結(jié)果,所以直接取模的方式是種偽隨機(jī)的方式。
第二方面,夠用嗎?將 QQ號模 100,最多只能進(jìn)行 99 次 A/B 實(shí)驗(yàn),還有一組是用來對照的。即使模 1000 甚至 10000,那也始終是有限的,所以這種取樣的方式并不夠用。
既然給 QQ 號取模的方式是偽隨機(jī)的、不夠用的,那應(yīng)該如何正確地劃分用戶組?這里介紹一下我們所采用的一種方式,它可以同時(shí)滿足三方面的需要:分桶均勻、足夠分桶和互不干擾,我們分別簡單的聊一聊。
第一方面是分桶均勻。我們不會對 QQ 號直接取模,而是先計(jì)算 QQ 號的 Hash 值,然后再對 Hash 值取模。這樣做的好處是,哈希函數(shù)可以充分地打散用戶,避免靚號聚集的情況,同時(shí)在 QQ 這么大的體量下,我們幾乎可以認(rèn)為對 Hash 結(jié)果取模的結(jié)果是均勻的,不會出現(xiàn)有的分組用戶很多有的分組很少的情況。
第二方面是足夠分桶。剛剛我們提到需要對 QQ 號進(jìn)行哈希處理,但這樣也避免不了實(shí)驗(yàn)桶被用完的情況,那如何處理呢?我們可以加一個(gè) salt 值,當(dāng) 99 次實(shí)驗(yàn)桶用完的時(shí)候,我們可以換一個(gè) salt 值,可以把用戶重新打亂再分組。這有點(diǎn)像打牌,第一次所有牌會被均分成 4 份,然后重新洗牌再均分成四份。因?yàn)?salt 值是無窮無盡的,所以理論上我們可以得到無窮無盡的實(shí)驗(yàn)桶。
第三方面是互不干擾。相比于前兩方面,這個(gè)比較難以理解,我們簡化一下。假設(shè)某款產(chǎn)品有 81 名用戶,分 9 組進(jìn)行 A/B 實(shí)驗(yàn),那每組就有 9 名用戶,其中我們對 0 號桶的用戶進(jìn)行編號,0 到 8。有沒有可能出現(xiàn)這樣一種情況,重新打散用戶再分組后,上一次同一個(gè)分組里面的用戶大部分這次又進(jìn)入了同一個(gè)組,好比洗牌沒有洗好的話,我這次拿到了一個(gè)炸,下一次很可能又拿到了同一個(gè)炸。出現(xiàn)這種情況會有什么問題嗎?假設(shè)分層 1 的1號桶有非常好的正向效果,同時(shí)也發(fā)現(xiàn)分層 2 的 0‘ 號桶也有非常好的正向效果,那你就說不清 0' 號桶的正向效果是在 0 號桶里面的實(shí)驗(yàn)帶來的還是 0‘ 號桶里面的實(shí)驗(yàn)帶來的。那有什么辦法可以解決這個(gè)問題呢?正交。所謂的正交就是將上一個(gè)分層中每個(gè)桶的用戶打算重新分組后,均勻地分配到下一分層中的每個(gè)桶中。這樣說有點(diǎn)抽象,我們看 PPT,分層 1 中 0 號桶里面的 9 個(gè)用戶,在重新打散后,被均勻地分配到了分層 2 的每一個(gè)桶里面。同樣的,分層 1 中 1 號桶的所有的用戶也會被均勻分配到分層 2 的每一個(gè)桶里面。
以上就是采樣的三個(gè)注意點(diǎn)以及我們采用的解決方案。最終的 A/B 測試的實(shí)驗(yàn)結(jié)果也表明,收到投放內(nèi)容的那部分用戶的數(shù)據(jù)確實(shí)有明顯提升。
最后我想以我們騰訊看點(diǎn)線的老大在一次大會上給我們分享的一句話作為結(jié)尾:多數(shù)人因看見而相信,少數(shù)人因相信而看見。自從 Facebook 2006 年創(chuàng)造了信息流這種新型的內(nèi)容形式,信息流迄今已經(jīng)發(fā)展了 14 年,作為信息流背后的核心引擎 -- 推薦系統(tǒng)也已經(jīng)進(jìn)入了發(fā)展的深水區(qū),如何為用戶提供更好的內(nèi)容、創(chuàng)造更大的價(jià)值,我們一直都在探索,今天跟大家分享的投放系統(tǒng)就是一個(gè)探索的產(chǎn)物。因?yàn)橄嘈?#xff0c;所以我們可以看到勝利的彼岸。
最后的最后,因?yàn)闀r(shí)間關(guān)系,跟大家交流的時(shí)間非常有限,歡迎大家通過我們團(tuán)隊(duì)公眾號“騰訊VTeam技術(shù)團(tuán)隊(duì)”和我的個(gè)人公眾號“FEPulse”跟我們交流。
謝謝大家!
總結(jié)
以上是生活随笔為你收集整理的腾讯看点投放系统介绍:推荐系统的进化伙伴的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Golang 汇编入门知识总结
- 下一篇: 高效大数据开发之 bitmap 思想的应