微信公众号文章质量评分算法详解
作為一個多年的微信公眾號作者,了解微信公眾號文章打分的機制是十分有必要的。微信在后臺其實有一整套的打分機制,今天基于騰訊的這篇Paper《Cognitive Representation Learning of Self-Media Online Ariticle Quality》為大家介紹下文章質量打分背后的算法理論。
在這篇paper中其實重點分享了兩個方面,一方面是文章質量分的深度學習模型設計方法,另一方面是訓練數據的構造法。
1 文章質量分模型架構設計方法
整個模型的設計分為兩層,第一層是藍、粉、綠這三個模塊,作為基礎的文章質量embedding生成層。第二層是最上方的FC Layer全連接層,這一層主要是做評分。
論文里把上面這個網絡架構叫做CoQAN,文章質量分的訓練模式被當成了二分類問題。
在模型設計上分為三個獨立的模塊(Subnetwork),分別是:
-
Layout Organization Subnetwork:布局結構判斷網絡,用來生成布局相關的評分
-
Writing Characteristics Subnetwork:協作風格判斷網絡,用來評估文章的寫作風格
-
Text Semantics Subnetwork:語意深度判斷網絡,用來評估文章內容的質量
?
(1)Layout Organization Subnetwork
在布局評估網絡中,主要通過循環網絡算法GRU去判斷圖片、文本、視頻的布局結構。?
每段文章或者視頻或者圖片叫做一個block,GRU算法用來表述上下block結構pattern,用CNN表述block內部的布局。然后GRU和CNN綜合起來
(2)Writing Characteristics Subnetwork
這個網絡主要解決的是如何評估文章的協作風格,更多的是NLP方面的一些特征的挖掘,比如標題長度、核心詞的個數、文章長度、n-gram、圖片和文章的比例、圖片數量、文章數量等。
然后利用one-hot編碼就可以得到原始特征,然后還可以用一些特征交叉去生成一些交叉特征。
(3)Text Semantics Subnetwork
語意理解模型,通過優化bert模型形成hi-bert模型。hi-bert模型可以挖掘句子和詞之間語意關系,找到主題和文章的語意深度。
?
2 文章質量分模型訓練數據
?
上文介紹了文章評分模型的結構,在Paper的結尾片段還介紹了訓練數據的構建方式。文章質量分訓練可以看作是一個二分類問題,所以需要選擇正樣本和負樣本。
正樣本的標準是高等級的賬號發表,具備比較高的喜歡、分享次數,不符合標準的被作為負樣本。最終Paper中的模型訓練使用了22054篇文章作為正樣本,16194篇文章作為負樣本。
最終在與其它文章質量分模型的比較中,CoQAN取得了比較好的結果:
?
總結
以上是生活随笔為你收集整理的微信公众号文章质量评分算法详解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开源在线机器学习Online Learn
- 下一篇: 黄金价格预测:如何将时序数据处理成监督学