搜推广遇上用户画像:Lookalike相似人群拓展算法
在《當(dāng)推薦系統(tǒng)遇上用戶畫像:你的畫像是怎么來的?》一文中,我們介紹了怎么通過TF-IDF的方式得到用戶的畫像。而在本文中,我們來聊一下在搜索、推薦、計(jì)算廣告系統(tǒng)中“畫像是怎么用的?”。
在互聯(lián)網(wǎng)商業(yè)應(yīng)用中,許多廣告主在“搜尋潛客”時(shí),都會(huì)遇到如難以識別高潛人群、難于平衡成本與規(guī)模等問題。而在數(shù)字營銷的過程中,運(yùn)營人員或者數(shù)據(jù)分析同學(xué)也是在根據(jù)已有的經(jīng)驗(yàn),通過用戶畫像的方式,擴(kuò)展與歷史轉(zhuǎn)化人群相似的人群。比如,通過性別、年齡等篩選出化妝品的受眾人群等。顯然,這種方式有些粗糙。
那么,有什么方法可以優(yōu)雅而有理有據(jù)的解決這個(gè)問題嗎?答案是肯定,不然我費(fèi)勁巴拉的寫這篇文章干嘛,躺著刷刷視頻不香嗎...言歸正傳,相似人群拓展(Lookalike)的工作機(jī)制是基于種子用戶畫像和社交關(guān)系鏈尋找出相似用戶。即,根據(jù)種子人群的共有屬性進(jìn)行自動(dòng)化擴(kuò)展,以擴(kuò)大潛在用戶覆蓋面,提升營銷/廣告效果。
圖片引用來自參考資料1具體來講,相似人群拓展(Lookalike)是基于種子用戶,通過用戶畫像、算法模型等找到與種子用戶更多擁有潛在關(guān)聯(lián)性的拓展技術(shù)。Lookalike算法是計(jì)算廣告中的術(shù)語,不是單指某一種算法,而是一類方法的統(tǒng)稱,這類方法綜合運(yùn)用多種技術(shù),其目的就是為了實(shí)現(xiàn)人群包擴(kuò)充。
舉個(gè)廣告的栗子,對于一個(gè)化妝品類廣告主,需要對100萬人投放自己的廣告,但是根據(jù)經(jīng)驗(yàn)或者畫像只有10萬的人群包,那么如何選取這100萬,同時(shí)滿足人群量級和轉(zhuǎn)化(盲目選擇可能存在無效用戶)兩個(gè)因素,就需要用到Lookalike相似人群拓展技術(shù)了。比如,向品牌偏好、消費(fèi)價(jià)格區(qū)間匹配的人群進(jìn)行投放等。
舉個(gè)數(shù)字營銷的栗子,對于運(yùn)營人員,需要將某一個(gè)節(jié)日活動(dòng)向100萬用戶進(jìn)行短信/Push發(fā)送,但根據(jù)畫像刷選之后,可能發(fā)現(xiàn)這波用戶已經(jīng)被其他業(yè)務(wù)的運(yùn)營發(fā)送過了N多次,最后剩下可以發(fā)送的用戶寥寥...此時(shí)Lookalike相似人群拓展的作用便來了。根據(jù)種子人群(已有過的轉(zhuǎn)化人群)的共有屬性進(jìn)行自動(dòng)化擴(kuò)展,以擴(kuò)大潛在用戶覆蓋面。對于拉新任務(wù)來說,誰用誰知道....啊~真香~
圖片引用來自參考資料1Lookalike相似人群拓展方法主要有以下幾種方式,
- 利用用戶畫像進(jìn)行顯式人群拓展:根據(jù)種子用戶的標(biāo)簽(地理、興趣、行為、品牌偏好等),利用相同標(biāo)簽找到目標(biāo)人群;
- 利用機(jī)器學(xué)習(xí)模型進(jìn)行隱式人群拓展:廣告主的種子用戶做為正樣本,廣告平臺(tái)中有海量的非種子用戶,也有大量的廣告投放歷史數(shù)據(jù)可以做為負(fù)樣本,訓(xùn)練機(jī)器學(xué)習(xí)模型,然后用模型對所有候選對象進(jìn)行篩選;
- 利用社交圖結(jié)構(gòu)的相似人群拓展:核心就是通過Graph Embedding的形式去得到相似的人群。
同時(shí),我們需要注意到的問題是,隨著流量不斷增大,相似人群的聚焦性也必然逐步降低,尋找目標(biāo)人群的難度加大,致使非目標(biāo)人群(無效人群,對轉(zhuǎn)化沒有幫助,但是會(huì)增加投放成本)的比例也隨著流量的增加而增加。而Lookalike技術(shù)通過大數(shù)據(jù)分析和復(fù)雜模型學(xué)習(xí)歸納高質(zhì)量人群的人口特征,然后在更大的流量范圍內(nèi),尋找具有類似人口特征的人,從而實(shí)現(xiàn)目標(biāo)的轉(zhuǎn)化。
另外,做任何業(yè)務(wù)背景的問題,我們都需要關(guān)注其背后的可解釋性:雖然可以通過一系列的用戶畫像、機(jī)器學(xué)習(xí)技術(shù)拓展了一批用戶,但是拓展的途徑、人群的行為特征等都需要一個(gè)直觀的解釋。比如擴(kuò)展的人群在哪些特征或行為上匹配種子用戶,而未被拓展的人群,又是怎么樣的? 這不僅為拓展提供了幫助,也為badcase溯源問題提供了一套良好的方式方法。
谷歌Similar Audiences
Google的“Similar Audiences”根據(jù)用戶近期的瀏覽和下載APP行為,為廣告主推薦拓展相似的人群。谷歌廣告后臺(tái)會(huì)自動(dòng)生成與你的網(wǎng)站訪問者或現(xiàn)有客戶興趣相似的用戶群體,一般情況下,你設(shè)置了多少個(gè)再營銷相似群體列表,就會(huì)生成多少個(gè)對應(yīng)的相似人群。
Similar Audience不僅可以幫你查找到與你網(wǎng)站訪問者相似的人,并且還能幫你向這些特定人群傳遞信息,為你帶來高質(zhì)量的潛在用戶,甚至直接轉(zhuǎn)化。例如,你開了一家保險(xiǎn)公司,并且想推銷碎屏保險(xiǎn)。通過Remarketing的使用,你可以將之前來過你網(wǎng)站并且查看過碎屏保險(xiǎn)的人創(chuàng)建為一個(gè)List,然后在這個(gè)基礎(chǔ)上去尋找相似的受眾。
這樣一來,新的受眾和你之前Remaketing Lists里面的人都是有著相同的行為習(xí)慣,興趣,甚至購買傾向,從而轉(zhuǎn)化率大大提升。
Facebook Lookalike Audiences
Facebook的“Lookalike Audiences”,可以根據(jù)Custom Audiences所篩選出的用戶名單為參考,再篩選出與其相似的人群,讓廣告主可以將廣告投遞給此名單內(nèi)的用戶。
通過Facebook像素插件,來記錄客戶在你網(wǎng)站的行為,比如,加入購物車但未購買,像素會(huì)反饋給你信息,方便后期給客戶定向投放廣告。
同時(shí)相似群體大致有以下情況:
- 與主頁互動(dòng),比如點(diǎn)贊,轉(zhuǎn)發(fā),評論主頁等,用messenger發(fā)消息等等。
- 視頻觀看情況,比如說觀看你發(fā)布的視頻時(shí)間播放時(shí)長等。
阿里達(dá)摩盤DMP
阿里推出達(dá)摩盤(DMP)Lookalike 模型根據(jù)對店鋪或品牌最忠實(shí)的那批用戶(種子用戶),并通過Lookalike 模型找到與這些種子用戶相似的人來增加店鋪的有效瀏覽和轉(zhuǎn)化。
騰訊社交Lookalike
騰訊社交廣告團(tuán)隊(duì)基于種子用戶畫像和關(guān)系鏈尋找相似用戶,即根據(jù)種子人群的共有屬性進(jìn)行自動(dòng)化擴(kuò)展,以擴(kuò)大受眾覆蓋面,提升廣告效果。
例如,家庭、社會(huì)身份、地位、相關(guān)群體等社會(huì)因素,文化、次文化等文化因素,以及行為、動(dòng)機(jī)、興趣等心理因素等都能形成相似人群拓展Lookalike的篩選標(biāo)準(zhǔn)。以社交關(guān)系鏈為基礎(chǔ),騰訊社交廣告可以助力廣告主尋找相似線索、捕捉高潛客戶。
騰訊廣告算法大賽2018年的賽題,題目如下:
在特征工程層面,總結(jié)一下魚和jachin的開源方案中的思路如下:
(1)原始o(jì)nehot特征,比如aid,age,gender等。
(2)向量特征,比如interest1,interest2,topic1,kw1等
(3)向量長度統(tǒng)計(jì)特征:interest1,interest2,interest5的長度統(tǒng)計(jì)。
(4)uid類的統(tǒng)計(jì)特征,uid的出現(xiàn)次數(shù),uid的正樣本次數(shù),以及uid與ad特征的組合出現(xiàn)次數(shù),組合正樣本次數(shù)。
(5)uid的序列特征,比如uid=1時(shí),總共出現(xiàn)了5次,序列為[-1,1,-1,-1,-1]。
(6)組合特征:age與aid的組合,gender與aid的組合,interest1與aid的組合,interest2與aid的組合,topic1與topic2的組合,LBS與kw1的組合。
(7)五大類特征,投放量(click)、投放比例(ratio)、轉(zhuǎn)化率(cvr)、特殊轉(zhuǎn)化率(CV_cvr)、多值長度(length),每類特征基本都做了一維字段和二維組合字段的統(tǒng)計(jì)。值得注意的是轉(zhuǎn)化率利用預(yù)處理所得的分塊標(biāo)簽獨(dú)立出一個(gè)分塊驗(yàn)證集不加入統(tǒng)計(jì),其余分塊做dropout交叉統(tǒng)計(jì),測試集則用全部訓(xùn)練集數(shù)據(jù)進(jìn)行統(tǒng)計(jì)。
(8)此外,我們發(fā)現(xiàn)一些多值字段的重要性很高,所以利用了lightgbm特征重要性對ct\marriage\interest字段的稀疏編碼矩陣進(jìn)行了提取,提取出排名前20的編碼特征與其他單值特征進(jìn)行類似上述cvr的統(tǒng)計(jì)生成CV_cvr的統(tǒng)計(jì),這組特征和cvr的效果幾乎相當(dāng)。
搜推廣遇上用戶畫像:Lookalike相似人群拓展算法總結(jié)
以上是生活随笔為你收集整理的搜推广遇上用户画像:Lookalike相似人群拓展算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: KDD Cup 2021:时间序列异常检
- 下一篇: 谷歌开源下一代推荐系统模拟器:RecSi