當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

搜索引擎反作弊之：整体技术思路

發布時間：2024/2/28 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了搜索引擎反作弊之：整体技术思路小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

??? ? ? ? ? ? ? ? ? ? ? ? ?? 本文節選自《這就是搜索引擎：核心技術詳解》第八章

???? 如上所述，目前搜索引擎作弊手段五花八門，層出不窮，作為應對方的搜索引擎，也相應調整技術思路，不斷有針對性地提出反作弊的技術方案，所以如果整理反作弊技術方案，會發現技術方法很多，理清思路不易。

???? 盡管如此，如果對大多數反作弊技術深入分析，會發現在整體技術思路上還是有規律可循。從基本的思路角度，可以將反作弊手段大致劃分為以下三種：“信任傳播模型”、“不信任傳播模型”和“異常發現模型”。其中前兩種技術模型可以進一步抽象歸納為“鏈接分析”一章提到的“子集傳播模型”，為了簡化說明，此處不再敷述，而是直接將這兩個子模型列出。將具體算法和這幾個模型建立起關系，有助于對反作弊算法的宏觀思路和相互聯系樹立起清晰的概念。

8.5.1信任傳播模型

???? 圖8-6展示了“信任傳播模型”的示意圖。所謂“信任傳播模型”，基本思路如下：在海量的網頁數據中，通過一定技術手段或者人工半人工手段，從中篩選出部分完全值得信任的頁面，也即肯定不會作弊的頁面（可以理解為白名單），算法以這些白名單內的頁面作為出發點，賦予白名單內的頁面節點較高的信任度分值，其它頁面是否作弊，要根據其和白名單內節點的鏈接關系來確定。白名單內節點通過鏈接關系將信任度分值向外擴散傳播，如果某個節點最后得到的信任度分值高于一定閾值，則認為沒有問題，而低于這一閾值的網頁則會被認為是作弊網頁。

????????????

??????????????? ????????????圖8-6 信任傳播模型

??? 很多算法在整體流程和算法框架上遵循如上描述，其區別點往往體現在以下兩方面：

a.如何獲得最初的信任頁面子集合，不同的方法手段可能有差異。

b.信任度是如何進行傳播的，不同的方法可能有細微差異。

8.5.2不信任傳播模型

?????? ??????圖8-7 不信任傳播模型

????? 圖8-7展示了“不信任傳播模型”的整體框架示意圖。從大的技術框架上來講，其和“信任傳播模型”是相似的，最大的區別在于：初始的頁面子集合不是值得信任的頁面節點，而是確認存在作弊行為的頁面集合，即不值得信任的頁面集合（可以理解為黑名單）。賦予黑名單內頁面節點不信任分值，通過鏈接關系將這種不信任關系傳播出去，如果最后頁面節點的不信任分值大于設定的閾值，則會被認為是作弊網頁。

??? 同樣，很多算法可以歸入這一模型框架，只是在具體實施細節方面有差異，整體思路基本一致。

8.5.3異常發現模型

?? ?? 異常發現模型也是高度抽象化的一個算法框架模型，其基本假設認為：作弊網頁必然存在有異于正常網頁的特征，這種特征有可能是內容方面的，也有可能是鏈接關系方面的。而制定具體算法的流程往往是先找到一些作弊的網頁集合，分析出其異常特征有哪些，然后利用這些異常特征來識別作弊網頁。

?? ?? 具體來說，這個框架模型又可細分為兩種子模型，這兩種子模型在如何判斷異常方面有不同的考慮角度。一種考慮角度比較直觀，即直接從作弊網頁包含的獨特特征來構建算法（參見圖8-8）；另外一種角度則認為不正常的網頁即為作弊網頁，也就是說，是通過統計等手段分析正常的網頁應該具備哪些特征，如果網頁不具備這些正常網頁的特征，則被認為是作弊網頁（參見圖8-9）。圖8-8和圖8-9體現了這兩種不同的思路。

?????????????????? ?????????????????????????????????????????????????????????????

???????????????????????????????????? 圖8-8 異常發現模型一

?????????????????? ? ? ? ? ? ? ? ? ? 圖8-9 異常發現模型二

????

?????? 盡管反作弊算法五花八門，但是不論采取哪種具體算法，其實都包含了一些基本假設，經常被反作弊算法使用的基本假設有：

a.????? 盡管作弊網頁喜歡將鏈接指向高質量網頁，但是很少有高質量網頁將鏈接指向作弊網站的現象；

b.????? 作弊網頁之間傾向于互相指向；

? ?很多算法的基本思路都是從這些基本假設出發來構造的。

總結

以上是生活随笔為你收集整理的搜索引擎反作弊之：整体技术思路的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：搜索引擎反作弊之:链接作弊与隐藏作弊
下一篇：文本摘要技术调研

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

搜索引擎反作弊之：整体技术思路

總結