word2vec模型评估_特征工程(下)—特征评估
點擊上方“大數據與人工智能”,“星標或置頂公眾號”
第一時間獲取好內容
作者丨stephenDC
編輯丨Zandy
這是作者的第15篇文章
本文是特征工程系列的第3篇,也是最后一篇。
作者會在本文中結合自己在視頻推薦方面的工作經驗,著重從工程實現方面,講述如何對特征進行評估的問題。下文中,我們首先會厘清“特征評估”的概念,然后講述特征評估的標準,最后是問題的反向排查。
?涉及到“特征選擇”和“特征表達”的細節或背景,大家可以參閱該系列的前兩篇文章,《特征工程(上)—特征選擇》和《特征工程(中)-特征表達》。
厘清概念
? ??什么是特征評估?
特征評估從概念上很容易跟特征選擇糾纏到一起,因此非常有必要先厘清概念。在特征選擇的過程中,我們需要對特征的每個維度進行評估,來選擇出相對更重要的特征。然后,對于選擇出的特征維度,我們會根據原始數據,對特征進行編碼,進而得到特征。本文所說的特征評估,指的是對已經生成的特征的整體評估,發生在特征選擇和特征編碼之后,因此不要跟特征選擇過程中的對單個特征維度相對重要性的評估弄混了。評估標準
? ? ? ? ? ??分析前需要優先考慮哪些特征?特征工程的最終目的是提供給模型做預測,因此只要特征在模型上表現的好就夠了。這話一點兒沒錯,但倘若特征的表現不如人意呢?我們有沒有辦法提前發現問題,或者說如果最后不得不推倒重來,怎么找到改進的方向。所以,在最終的定量分析之前,還需要從特征的覆蓋率、特征維度、定性分析等各個方面,對特征進行先行評估。- 覆蓋率
標簽:視頻標簽是內容的體現,因此是基于內容生成特征的典型方式。有了視頻標簽,就可以用One-hot或者TF-IDF的方式,進行特征編碼,進而得到特征。因此,這種方法的覆蓋率,取決于視頻標簽的覆蓋率。
ALS:ALS是Alternating Least Square的首字母縮寫,是Spark mllib最早實現的算法之一。ALS是求解矩陣分解的一種典型方法,將用戶對視頻的評分矩陣進行分解,分別得到用戶和視頻的特征。因此,這種方法存在冷啟動問題,無法覆蓋到尚無用戶操作過的視頻,也無法覆蓋尚未有過操作行為的用戶。
Word2vec:Word2vec是谷歌提出的詞嵌入模型,可以將一個詞嵌入到特定的特征空間之中,并維持詞與詞之間的語義關系。如果每個視頻當成一個單詞,將每個用戶觀看過的視頻當成一個句子,則可以用Word2vec對視頻編碼,得到視頻特征。所以,這種方法從原理上決定了,對沒有被播放過或剛上線不久未被用戶充分選擇的視頻,因為得到的特征會不準確,都無法覆蓋。
特征維度
- 定性分析
- 定量分析
問題反向排查
? ? ? ? ?特征表現不好,如何找出問題所在?如果特征表現不好,怎么樣去查找問題所在,找到改進方向呢?我們先來分析一下,最終的定量分析指標,比如RMSE,是怎么得到。首先,需要先從數據源提取出特征。在這個過程中,數據源的質量、特征提取的方案,都會影響到最后得到的特征。然后,我們將特征灌入模型進行訓練,這時模型的選型、模型的訓練,都會影響到最終的分析指標。所以,當特征表現不夠好時,我們就可以按照這個流程對問題進行反向排查了。1
模型的問題
首先,我們需要排除模型的問題。大家都知道,機器學習是沒有免費午餐的,沒有任何一種模型可以在任何問題上表現都優于另一種模型。所以,我們要根據特征和數據量,選擇合適的模型。舉例:FM會對一階特征進行二階交叉,這對標簽特征很有意義,那對Word2vec這樣的嵌入特征是否就不一定合適了呢?再比如,KNN在低維問題上表現非常出色,但對于高維的特征,由于維度災難的問題,也是不適合的。如果這組特征在各種模型下的表現都不夠好,此時我們就需要去考慮特征本身可能的問題了。2
特征的問題
在數據源確定的情況下,影響特征質量的因素主要是特征選擇和特征編碼。在特征選擇方面,我們要考慮選擇出的特征是否完備,冗余度如何等。在編碼方案上,我們也要考慮現有的編碼方式,是否能合理地刻畫一個對象。舉例:比如,作者先前很排斥對電影標簽用TF-IDF的方式編碼。因為周星馳比趙本山演了更多的電影,“周星馳”這個標簽比“趙本山”IDF(逆向文本頻率)項的值就要低很多;但周星馳的電影風格很凸出,而《三槍》和《一代宗師》卻并沒有因為趙本山的參演而增加多少相似性。但后來從全局考慮,作者還是接受了TF-IDF的方案,而“周星馳”這個標簽的重要程度只能從視頻標簽權重的角度補回來了。再比如,對用戶看過的視頻,如何根據播放行為轉化為分數?要不要考慮觀看行為的時間衰減,如何衰減?這些都會影響到最終的特征。如果特征的編碼方案經過排查,并沒有大的問題,但特征表現還是不夠好,那就需要去排查數據源的問題了。。3
數據源問題
還是以視頻推薦為背景,基于標簽的特征構建,依賴視頻標簽數據和用戶行為數據。也就是說,如果標簽不準,或者用戶行為里混入了臟數據,特征工程的質量是可以想見的。這個問題很難完全避免,但需要相關團隊的大力支持。比如,視頻標簽需要編輯團隊辛苦的打標簽工作;而用戶行為日志,則需要BI團隊辛苦的ETL工作。沒有這些相關同事的工作,特征工程就是巧婦難為無米之炊了。小結
本文在“特征選擇”和“特征表達”的基礎上,聊了一下特征評估的問題。至此,特征工程系列終于結束。由于作者的水平及在這方面的工作經驗均非常有限,個中不足還請大家不吝賜教。-end-相關內容閱讀1.特征工程(中)-特征表達
2.特征工程(上)—特征選擇
3.指數分布族
4.誤差反向傳播
5.極大似然估計、極大后驗估計和貝葉斯估計
6.?稀疏核機(下)—稀疏性
7.?稀疏核機(中)—核方法
8.稀疏核機(上)—SVM回顧
總結
以上是生活随笔為你收集整理的word2vec模型评估_特征工程(下)—特征评估的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: gpg加密命令 linux_用 PGP
- 下一篇: idea怎么提交到dev分支_IDEA设