搜索引擎反作弊之:整体技术思路
???? 如上所述,目前搜索引擎作弊手段五花八門,層出不窮,作為應對方的搜索引擎,也相應調整技術思路,不斷有針對性地提出反作弊的技術方案,所以如果整理反作弊技術方案,會發現技術方法很多,理清思路不易。
???? 盡管如此,如果對大多數反作弊技術深入分析,會發現在整體技術思路上還是有規律可循。從基本的思路角度,可以將反作弊手段大致劃分為以下三種:“信任傳播模型”、“不信任傳播模型”和“異常發現模型”。其中前兩種技術模型可以進一步抽象歸納為“鏈接分析”一章提到的“子集傳播模型”,為了簡化說明,此處不再敷述,而是直接將這兩個子模型列出。將具體算法和這幾個模型建立起關系,有助于對反作弊算法的宏觀思路和相互聯系樹立起清晰的概念。
?
8.5.1信任傳播模型
???? 圖8-6展示了“信任傳播模型”的示意圖。所謂“信任傳播模型”,基本思路如下:在海量的網頁數據中,通過一定技術手段或者人工半人工手段,從中篩選出部分完全值得信任的頁面,也即肯定不會作弊的頁面(可以理解為白名單),算法以這些白名單內的頁面作為出發點,賦予白名單內的頁面節點較高的信任度分值,其它頁面是否作弊,要根據其和白名單內節點的鏈接關系來確定。白名單內節點通過鏈接關系將信任度分值向外擴散傳播,如果某個節點最后得到的信任度分值高于一定閾值,則認為沒有問題,而低于這一閾值的網頁則會被認為是作弊網頁。
????????????
??????????????? ????????????圖8-6 信任傳播模型
?
??? 很多算法在整體流程和算法框架上遵循如上描述,其區別點往往體現在以下兩方面:
a.如何獲得最初的信任頁面子集合,不同的方法手段可能有差異。
b.信任度是如何進行傳播的,不同的方法可能有細微差異。
?
8.5.2不信任傳播模型
?
?????? ??????圖8-7 不信任傳播模型
????? 圖8-7展示了“不信任傳播模型”的整體框架示意圖。從大的技術框架上來講,其和“信任傳播模型”是相似的,最大的區別在于:初始的頁面子集合不是值得信任的頁面節點,而是確認存在作弊行為的頁面集合,即不值得信任的頁面集合(可以理解為黑名單)。賦予黑名單內頁面節點不信任分值,通過鏈接關系將這種不信任關系傳播出去,如果最后頁面節點的不信任分值大于設定的閾值,則會被認為是作弊網頁。
??? 同樣,很多算法可以歸入這一模型框架,只是在具體實施細節方面有差異,整體思路基本一致。
?
8.5.3異常發現模型
?? ?? 異常發現模型也是高度抽象化的一個算法框架模型,其基本假設認為:作弊網頁必然存在有異于正常網頁的特征,這種特征有可能是內容方面的 ,也有可能是鏈接關系方面的。而制定具體算法的流程往往是先找到一些作弊的網頁集合,分析出其異常特征有哪些,然后利用這些異常特征來識別作弊網頁。
?? ?? 具體來說,這個框架模型又可細分為兩種子模型,這兩種子模型在如何判斷異常方面有不同的考慮角度。一種考慮角度比較直觀,即直接從作弊網頁包含的獨特特征來構建算法(參見圖8-8);另外一種角度則認為不正常的網頁即為作弊網頁,也就是說,是通過統計等手段分析正常的網頁應該具備哪些特征,如果網頁不具備這些正常網頁的特征,則被認為是作弊網頁(參見圖8-9)。圖8-8和圖8-9體現了這兩種不同的思路。
?????????????????? ?????????????????????????????????????????????????????????????
???????????????????????????????????? 圖8-8 異常發現模型一
?
?????????????????? ? ? ? ? ? ? ? ? ? 圖8-9 異常發現模型二
????
?????? 盡管反作弊算法五花八門,但是不論采取哪種具體算法,其實都包含了一些基本假設,經常被反作弊算法使用的基本假設有:
a.????? 盡管作弊網頁喜歡將鏈接指向高質量網頁,但是很少有高質量網頁將鏈接指向作弊網站的現象;
b.????? 作弊網頁之間傾向于互相指向;
? ?很多算法的基本思路都是從這些基本假設出發來構造的。
總結
以上是生活随笔為你收集整理的搜索引擎反作弊之:整体技术思路的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 搜索引擎反作弊之:链接作弊与隐藏作弊
- 下一篇: 文本摘要技术调研