百度计算广告学沙龙学习笔记 - 内容匹配广告
百度計算廣告學沙龍學習筆記 - 內(nèi)容匹配廣告
CSDN博客 原文? http://blog.csdn.net/three_body/article/details/18937705 主題 計算廣告第三期百度計算廣告學沙龍(? http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d ) 介紹了內(nèi)容匹配廣告和展示廣告相關(guān)技術(shù)。本博客記錄觀看內(nèi)容匹配廣告部分的一些筆記, 絕大多數(shù)為原slide內(nèi)容,只做簡單的整理。
背景
? ? ?涉及四方:網(wǎng)民(Users) + 網(wǎng)站主 (Publishers) + 廣告主(Advertisers) + 網(wǎng)盟 (AdNetwork/Matcher)
廣告計費 計費方式? ? ? ? ? ? ? ?CPC 按點擊收費
? ? ? ? ? ? ? ?CPM 按展示收費
? ? ? ? ? ? ? ?CPC+CPM 混合收費
? ? ? ? ? 廣義二階價格拍賣 (Generalized second price)
網(wǎng)盟廣告檢索系統(tǒng)
廣告系統(tǒng)整體架構(gòu)
廣告系統(tǒng)相關(guān)技術(shù)
應(yīng)用技術(shù) - 分層實驗框架
AB-Test? ? ?用戶實驗/頁面實驗/隨機實驗
? ? ?通過分層流量復用提高實驗并發(fā)率
? ? ?Reference: Overlapping Experiment Infrastructure: More, Better, Faster Experimentation (Google KDD 2010)
應(yīng)用技術(shù) - 用戶識別
? ? ?瀏覽器插件/客戶端軟件/HTTP Cookie/Flash Cookie/本地用戶數(shù)據(jù)(如everCookie)/IP+UA/登陸帳號
? ? ?用戶識別技術(shù)新動向 - CookieMatching
應(yīng)用技術(shù) - 高性能檢索
計算模型
? ? ?觸發(fā)策略->過濾策略->初選策略->精選策略 (廣告量減少, 計算量增加)
網(wǎng)絡(luò)模型
? ? ?同步模型, 半異步模型, 全異步模型
? ? ?慢Query對系統(tǒng)吞吐量影響
? ? ? ? ? 產(chǎn)生原因: 攻擊行為, 實驗引入, 服務(wù)bug, 網(wǎng)絡(luò)抖動, 機器異常
? ? ? ? ? 監(jiān)控處理: 比例波動檢測以確定原因;自我保護,超過閾值則終端; Cache結(jié)果; 簡化算法犧牲效果, 直接丟棄
索引模型
? ? ?廣告庫的邏輯結(jié)構(gòu)
? ? ? ? ? 帳戶->計劃->推廣組->廣告
技術(shù)要求? ? ? ? ? 實時性更新: 1s內(nèi)生效, 高并發(fā)讀寫
? ? ? ? ? 高查詢性能: 查詢qps達到每秒100萬 - 1000萬
? ? ?技術(shù)方案需要
? ? ? ? ? 無鎖的并發(fā)模型
? ? ? ? ? 全內(nèi)存的數(shù)據(jù)模型
? ? ?無鎖的并發(fā)模型
? ? ? ? ? COW(Copy on Write) 讀寫分離
? ? ? ? ? 延遲銷毀
索引擴展
? ? ?劃分: 數(shù)據(jù)均勻, 計算均勻, 計算重復, 數(shù)據(jù)重復,帶寬增長
? ? ?整體索引系統(tǒng)框架
系統(tǒng)要求
? ? ?高時效性;? 高容錯性 (實時檢索服務(wù), 特征存儲服務(wù), 數(shù)據(jù)推送服務(wù));? 高實驗性;? 高一致性;? 高擴展性;? 高可用性
網(wǎng)盟廣告匹配算法
廣告投放
? ? ?按廣告主表達方式分類
? ? ? ? ? 1. 關(guān)鍵詞 (輸入)
? ? ? ? ? 2. 標簽(選擇)
? ? ? ? ? 3. 規(guī)則(輸入/選擇)
? ? ?按建模對象分類
? ? ? ? ? 1. 用戶維度 - 以Cookie為建模對象
? ? ? ? ? 2. 流量維度 - 以當前URL為建模對象
? ? ?其他分類維度
? ? ? ? ? 1. 時空維度:當前/歷史,長期/短期,地域
? ? ? ? ? 2. 優(yōu)化目標:品牌,展現(xiàn),點擊,轉(zhuǎn)化
? ? ? ? ? 3. 數(shù)據(jù)來源:搜索、瀏覽
廣告特點
? ? ?1. 低點擊率
? ? ?2. 低margin
? ? ?3. ROI難量化
? ? ?4.用戶體驗難量化
廣告檢索
廣告檢索漏斗模型
? ? ?1. 片段觸發(fā);? 2. 相關(guān)性排序;? 3. 業(yè)務(wù)過濾;? 4. CPM排序; 5. 機制調(diào)整
? ? ?效果與性能的折中
片段觸發(fā)
片段來源: 1.? 當前網(wǎng)頁; 2.? 用戶歷史行為? ? ?片段類型: 1.? 關(guān)鍵詞; ? 2. 用戶/流量標簽;? 3. 規(guī)則模板
相關(guān)性排序
? ? ?衡量匹配度:? 1. Term Match;? 2. Topic Match;? 3. Category Match
? ? ?相關(guān)性排序
? ? ? ? ? 綜合考慮各個匹配度的回歸模型
? ? ? ? ? 1. 人工語料標注
? ? ? ? ? 2. 模型訓練
? ? ? ? ? 3. 隨著語料規(guī)模的增加, 更多離散特征
? ? ? ? ? 4. 人工輔助規(guī)則(行業(yè)矩陣)
業(yè)務(wù)過濾
? ? ?地域過濾,時間過濾,預算過濾,IP過濾,站點過濾,創(chuàng)意優(yōu)選
CPM排序
eCPM排序? ? ? ? ? eCPM = bid * Q
? ? ? ? ? price_i = (bid_(i+1) * Q_(i+1)) / Q_i
機制調(diào)整
? ? ?過展現(xiàn)控制
? ? ?Hidden Cost
? ? ? ? ? 廣告對用戶/站點體驗的傷害
? ? ? ? ? 對排名CPM調(diào)整 CPM = (Bid - HC) * Q
? ? ? ? ? 對計費進行調(diào)整 Price = CPM(next) / Q + HC
頁面特征提取
? ? ?基礎(chǔ)特征提取
? ? ? ? ? 頁面結(jié)構(gòu)特征
? ? ? ? ? Refer Query提詞
? ? ? ? ? 站點頻道提詞
? ? ? ? ? 流量質(zhì)量劃分
? ? ? ? ? 頁面主題分類
? ? ?Term賦權(quán)
? ? ? ? ? 統(tǒng)計維度:基本的TF*IDF賦權(quán)方式
? ? ? ? ? 結(jié)構(gòu)維度:網(wǎng)頁結(jié)構(gòu)角度,主要是Term的位置
? ? ? ? ? 語義維度:從語義角度理解網(wǎng)頁,利用篇章主題校驗
? ? ? ? ? 廣告庫維度:關(guān)鍵詞的購買信息
用戶特征提取
? ? ?歷史Query特征
? ? ? ? ? 拍賣詞包含匹配算法
? ? ? ? ? 切詞/專名邊界校驗
? ? ? ? ? 語義相關(guān)性校驗
? ? ? ? ? Query分類
? ? ?歷史瀏覽特征
? ? ? ? ? 網(wǎng)頁關(guān)鍵詞提取
? ? ? ? ? 網(wǎng)頁分類特征
? ? ? ? ? 歷史廣告點擊
? ? ? ? ? 歷史瀏覽頁面模板
? ? ?用戶分類特征
? ? ? ? ? 特征提取
? ? ? ? ? ? ? ?Query關(guān)鍵詞
? ? ? ? ? ? ? ?Query分類
? ? ? ? ? ? ? ?站點
? ? ? ? ? ? ? ?頁面標題,目錄,主要區(qū)域
? ? ? ? ? ? ? ?頁面分類
? ? ? ? ? ? ? ?廣告點擊,廣告分類
? ? ? ? ? ? ? ?頻次,組合,時間衰減
? ? ? ? ? 規(guī)則模型
? ? ? ? ? ? ? ?特征挖掘
? ? ? ? ? ? ? ?人工評估
? ? ? ? ? ? ? ?決策樹
? ? ? ? ? 機器學習模型
? ? ? ? ? ? ? ?語料凈化(先驗語料,廣告點擊語料)
? ? ? ? ? ? ? ?特征選擇
? ? ? ? ? ? ? ?模型構(gòu)建(分類模型,lookalike,推薦模型)
? ? ? ? ? ? ? ?效果評估
? ? ?時效性
? ? ?用戶體驗
? ? ? ? ? 用戶體驗
? ? ? ? ? ? ? ?單調(diào)性(連續(xù)展現(xiàn))
? ? ? ? ? ? ? ?醒目度(多媒體多廣告位)
? ? ? ? ? ? ? ?敏感性(涉及敏感行業(yè)關(guān)鍵詞)
? ? ? ? ? 用戶反饋
? ? ? ? ? ? ? ?興趣
? ? ? ? ? ? ? ?廣告
? ? ?Session特征分析 (連續(xù)用戶行為)
? ? ? ? ? 關(guān)鍵詞提取修正:如:魔獸寶寶->寶寶
? ? ? ? ? 意圖識別: 購買/維修/查詢
? ? ? ? ? 語義擴展
廣告特征提取
? ? ?拍賣詞特征
? ? ? ? ? 結(jié)構(gòu)分析
? ? ? ? ? Term賦權(quán)
? ? ?創(chuàng)意特征
? ? ? ? ? 文本創(chuàng)意 - 飄紅, 關(guān)鍵詞,長度
? ? ? ? ? 多媒體創(chuàng)意 - 顏色,形狀,大小,語義
? ? ?到達頁特征
? ? ? ? ? 網(wǎng)頁分析
? ? ? ? ? 頁面主題
? ? ? ? ? 轉(zhuǎn)化頁/咨詢頁
? ? ?廣告特征應(yīng)用
? ? ? ? ? 廣告分類 - 行業(yè),敏感,欺詐
? ? ? ? ? 不相關(guān)提詞挖掘
? ? ? ? ? 相關(guān)性匹配
廣告CTR 預估問題
CTR預估要解決的問題
CTR預估問題的挑戰(zhàn)
? ? ?挑戰(zhàn)1 - 數(shù)據(jù)
? ? ? ? ? 海量數(shù)據(jù)
? ? ? ? ? ? ? ?訓練樣本:每天上億級別的訪問量
? ? ? ? ? ? ? ?特征類型復雜:廣告,用戶,流量,季節(jié),節(jié)假日等
? ? ? ? ? 點擊率偏低
? ? ? ? ? 噪音數(shù)據(jù)多
? ? ? ? ? 問題:海量 數(shù)據(jù),高維特征,類別極端不平衡,噪音大
? ? ?挑戰(zhàn)2 - 時效性
? ? ? ? ? CTR隨時間改變 - 季節(jié),興趣
? ? ? ? ? bad case快速下線 ?新廣告, 新網(wǎng)站迭代調(diào)優(yōu)
方法? ? ? ? ? ? ? ?在線算法
? ? ? ? ? ? ? ?移動時間窗口的Batch算法
? ? ?挑戰(zhàn)3 - Exploration
? ? ? ? ? CTR預估決定未來訓練樣本中的廣告
? ? ? ? ? Exploration/Exploitation trade-off
? ? ? ? ? 長期收益 vs 短期收益
從機器學習角度看CTR預估問題
CTR預估問題的訓練流程
CTR預估問題的機器學習算法
特征
? ? ?1. 主要特征
? ? ? ? ? 用戶,流量廣告
? ? ?2. 特征類型
? ? ? ? ? 類別型特征 categorical features
? ? ? ? ? 連續(xù)值特征
? ? ?3. 特征表示
? ? ? ? ? 使用one-hot編碼
? ? ? ? ? 使用特征外積表示特征組合
? ? ? ? ? 特征維數(shù)表示類別個數(shù)和,特征個數(shù)海量
特征選擇
? ? ?1. Filter類
? ? ? ? ? 單特征AUC,?單特征AUC上界, gini指數(shù),信息熵,點擊直方圖
? ? ?2. Wrapper類
? ? ? ? ? AUC, AUC上界,MAE, WMAE, 似然Loss, 預估CTR均值,預估CTR方差
? ? ?3. embedding類
? ? ? ? ? L1正則化 Grafting分 Foba分
數(shù)據(jù)
數(shù)據(jù)來源? ? ? ? ? 展現(xiàn)日志,點擊日志, 用戶搜索日志等
數(shù)據(jù)處理? ? ? ? ? 日志拼接,不全日志刪除
數(shù)據(jù)凈化? ? ? ? ? 異常數(shù)據(jù)過濾 (去除噪音, 比如作弊數(shù)據(jù))
? ? ? ? ? 不可見日志刪除
模型
? ? ?線性邏輯回歸模型
? ? ? ? ? 最大似然
? ? ? ? ? 基于擬牛頓迭代計算
模型訓練
? ? ?分布式并行計算
? ? ? ? ? MPI (Message Passing Interface) 基于進程通信的計算模型, 適合模型訓練
? ? ? ? ? Hadoop: 基于Map-Reduce超大數(shù)據(jù)量并發(fā)計算, 適合數(shù)據(jù)預處理
模型更新? ? ? ? ? 每過一定周期,重新訓練模型
? ? ? ? ? 模型在線實時更新
評估系統(tǒng)
線上評估? ? ? ? ? 通過流量對比,觀察收入各項指標的影響,包括CTR, CPM, ACP, 到達, 二跳
線下評估? ? ? ? ? 類別不平衡
? ? ? ? ? ? ? ?模型排序能力: AUC
? ? ? ? ? ? ? ?模型擬合能力: 對數(shù)擬然
大規(guī)模分布式機器學習算法
? ? ?特征編碼及選擇
數(shù)據(jù)凈化? ? ?大規(guī)模分布式訓練
? ? ?線上線下效果評估
總結(jié)
以上是生活随笔為你收集整理的百度计算广告学沙龙学习笔记 - 内容匹配广告的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 招聘行业的经验
- 下一篇: Newton-Raphson metho