搜索引擎web spam类型及防治策略(version 0.9)
/*版權(quán)聲明:可以任意轉(zhuǎn)載,轉(zhuǎn)載時(shí)請(qǐng)務(wù)必以超鏈接形式標(biāo)明文章原始出處和作者信息及本聲明 .*/
?搜索引擎web spam類型及防治策略(version 0.9)
中科院軟件所 張俊林
url:http://sonata.iscas.ac.cn/zhjl
?2005年7月
?? ?搜索引擎的目的是發(fā)現(xiàn)和用戶查詢”相關(guān)”而且”重要”的頁面.一般來說網(wǎng)頁是否和用戶查詢相關(guān)是根據(jù)內(nèi)容判斷的,而重要性是根據(jù)鏈接分析得到的.web spam通常從內(nèi)容作弊,鏈接作弊,信息隱藏三個(gè)方面來進(jìn)行. 往頁面加入大量關(guān)鍵詞,以對(duì)用戶不可見的顏色設(shè)置字體.這樣用戶使用不可見的字符串搜索就可能搜索到無關(guān)的作弊網(wǎng)頁.這種方式主要是基于內(nèi)容的;分析Pagerank等搜索引擎使用的鏈接分析技術(shù),構(gòu)造很多其它網(wǎng)頁,并在網(wǎng)頁指向作弊網(wǎng)頁,這樣作弊網(wǎng)頁的入度大量增加,導(dǎo)致鏈接分析失效,排名增高.這種方式主要是基于鏈接的.
???? Web spam對(duì)于搜索引擎有很大的危害:一方面降低搜索引擎的結(jié)果有效性.大量不相關(guān)頁面占據(jù)重要排名位置.另外一個(gè)方面, 增加搜索引擎的無效索引,.這樣對(duì)于每個(gè)查詢都會(huì)耗費(fèi)不必要的時(shí)間來處理這些垃圾索引.
????? ?Web spam 和email spam類似,對(duì)于某個(gè)網(wǎng)頁是否真正的spam網(wǎng)頁的判斷多少是有主觀因素的,這也是造成難以防治該類問題的一個(gè)核心難點(diǎn).而目前大多數(shù)anti-spam技術(shù)都基于以下兩個(gè)假設(shè):假設(shè)一: 非作弊網(wǎng)站一般不會(huì)有指向作弊網(wǎng)站的鏈接(這個(gè)假設(shè)是有漏洞的,比如honey pot作弊方式,但是大多數(shù)情況下是成立的).假設(shè)二. 作弊網(wǎng)站往往會(huì)增加指向非作弊網(wǎng)站的鏈接.
???? 本文下面的內(nèi)容講述目前常用的一些作弊方法以及比較常見的防治策略.首先需要定義幾個(gè)概念:
概念一.目標(biāo)網(wǎng)頁----就是作弊者采取一系列措施希望該網(wǎng)頁能夠在搜索引擎排名中得到比其應(yīng)該得到的排名高的網(wǎng)頁.
概念二:輔助排名網(wǎng)頁---作弊者為了提高某個(gè)或者某些網(wǎng)頁的排名,需要引入大量的其它網(wǎng)頁,這些網(wǎng)頁的目的是幫助提高目標(biāo)網(wǎng)頁的排名.
?一. 搜索引擎spam方法
(1) 內(nèi)容作弊.目前搜索引擎對(duì)于內(nèi)容相關(guān)的判斷基本上是基于信息檢索領(lǐng)域的TF*IDF模式.TF指的是一個(gè)單詞在文章中出現(xiàn)的頻度,IDF指的是有多少個(gè)不同的文章中出現(xiàn)過該詞匯.一般來說TF越大,分值越高.IDF越小分值越高,也就是說越少的文章出現(xiàn)過這個(gè)詞匯,那么IDF分值越高.本質(zhì)上IDF是衡量詞匯權(quán)重的一個(gè)經(jīng)典方法.對(duì)于作弊者來說IDF基本上是不可控制的,但是TF卻是可以操控的.比如通過大量復(fù)制作弊詞匯并隱藏其可見性可以提高TF值,從而增加搜索引擎排名.另外,搜索引擎對(duì)于內(nèi)容權(quán)重的衡量還考慮詞匯出現(xiàn)位置,通常考慮的詞匯位置包括:文本正文,文本標(biāo)題,meta tag,URL鏈接文字以及URL文字.一般文本標(biāo)題,URL鏈接文字以及URL文字的權(quán)重會(huì)比較高.所以作弊者通過在文章標(biāo)題或者URL鏈接文字增加作弊詞匯來提高排名.這里的URL鏈接文字不是目標(biāo)頁面包含的鏈接的文字,而是指向目標(biāo)頁面的鏈接上的文字.因?yàn)橐话阏J(rèn)為指向目標(biāo)頁面的鏈接文字是一個(gè)摘要性的描述,其準(zhǔn)確性比較高,所以權(quán)重設(shè)定比較大.URL文字指的是在URL中加入作弊詞匯比如:www.buy-computer-cheaper.com/not-expensive.htm.內(nèi)容作弊一般采取以下方式:內(nèi)容大量重復(fù),提高TF值;在頁面加入大量與主題無關(guān)的作弊詞匯,這樣搜索者輸入任何作弊詞匯都有可能搜索到作弊頁面.在有效信息中隱藏作弊詞匯,比如將一篇新聞報(bào)道文章句子中插入作弊詞匯,這種情況比較難以發(fā)現(xiàn).內(nèi)容拼接,從不同的信息來源摘取不同的句子拼湊成正文,這樣只要查詢出現(xiàn)句子包含單詞就會(huì)檢索到這篇文章.
(2) Honey pot:作弊網(wǎng)頁作者發(fā)布有價(jià)值信息比如介紹某項(xiàng)技術(shù)的技術(shù)文章,但是在發(fā)布的信息里面隱含指向作弊頁面的隱藏鏈接,這樣通過網(wǎng)頁本身內(nèi)容的價(jià)值來誘導(dǎo)其它網(wǎng)站增加指向該頁面的鏈接從而間接增加作弊頁面的排名(比如本文標(biāo)題附近的聯(lián)接http://sonata.iscas.ac.cn/zhjl? 以及此處的鏈接引用,呵呵).比如往blog站點(diǎn),BBS站點(diǎn),留言簿或者wiki等可以任意發(fā)言的站點(diǎn)增加評(píng)論.在發(fā)表的評(píng)論里面增加指向目標(biāo)頁面的鏈接,這樣會(huì)間接增加目標(biāo)頁面的pagerank排名.根據(jù)發(fā)表評(píng)論類型可以分為以下兩種:一種是直接發(fā)廣告性質(zhì)的與主題無關(guān)評(píng)論,這個(gè)我們經(jīng)常在BBS或者留言版上看到.一種是評(píng)論與主題相關(guān),但是在評(píng)論中隱藏?zé)o法看到的鏈接信息.這種情況一般比較難以發(fā)現(xiàn).
(3) 組織spam farm.作弊者建立若干網(wǎng)站,通過精心構(gòu)建網(wǎng)頁之間的鏈接關(guān)系來通過大量輔助頁面提高目標(biāo)頁面的排名.
(4) CLOAKING.一般搜索引擎的頁面抓取器會(huì)定期抓取站點(diǎn)頁面,同時(shí)會(huì)首先訪問robot.txt協(xié)定文件.作弊者通過在robots.txt做手腳或者記住主要搜索引擎頁面抓取器的IP地址來識(shí)別搜索引擎,識(shí)別之后誘導(dǎo)搜索引擎索引的內(nèi)容和網(wǎng)站本身的內(nèi)容不同.
(5) 購買過期域名.過期域名存在大量指向這個(gè)域名的鏈接信息.作弊者通過購買過期域名來獲得這些鏈接信息來提高排名.
?(6) 將作弊網(wǎng)頁提交到雅虎等目錄站點(diǎn).熟練的作弊者可以通過欺騙目錄編輯,使得作弊網(wǎng)頁被目錄站點(diǎn)收錄,一般目錄站點(diǎn)的排名很高,所以這樣可以有效提高目標(biāo)頁面的排名.
(7) 在目標(biāo)頁面中增加指向重要或者著名網(wǎng)站的鏈接.這樣有可能欺騙搜索引擎目標(biāo)頁面是高質(zhì)量的索引頁面.
(8) 多個(gè)域名DNS解析到同一IP地址.因?yàn)樗阉饕驷槍?duì)同一域名內(nèi)鏈接做過調(diào)整,所以作弊者申請(qǐng)多個(gè)不同域名但是映射到同一IP.這樣來欺騙搜索引擎是不同站點(diǎn)的鏈接.
(9) 通過頁面自動(dòng)重定向來隱藏作弊頁面.
(10) 隱藏文字或者鏈接.通過設(shè)定文字或者鏈接的顏色為背景色來使得這些作弊文字或者鏈接對(duì)于讀者不可見.
(11) 交換鏈接.作弊者合作交換鏈接來增加排名.
對(duì)于spam farm來說,作弊者通過以下方式可以達(dá)到最優(yōu)作弊:
?(1) 單個(gè)作弊者能夠產(chǎn)生最高pagerank值的link spam方法:一個(gè)目標(biāo)網(wǎng)頁(希望排名提升),K個(gè)輔助排名網(wǎng)頁,K個(gè)網(wǎng)頁都有且只有一個(gè)鏈接指向目標(biāo)網(wǎng)頁,同樣地目標(biāo)網(wǎng)頁也有每個(gè)輔助排名網(wǎng)頁的一個(gè)鏈接.可以證明這種模式是目標(biāo)網(wǎng)頁通過作弊獲得的最大PAGERANK值.同時(shí)這個(gè)結(jié)構(gòu)也保證只要有一個(gè)頁面被索引則整個(gè)spam farm都能夠被索引.只有這樣,輔助排名網(wǎng)頁采能起作用..對(duì)于這種方式可以通過發(fā)現(xiàn)這種link farm模式特點(diǎn)的方法來識(shí)別可能的作弊網(wǎng)頁.
?(2) 兩個(gè)作弊者協(xié)作作弊.多個(gè)作弊者通過互相鏈接增加排名.最簡單的情況是兩個(gè)擁有spam farm的作弊者合作,考慮以下幾種作弊方式:
???????? a.兩人的所有輔助排名網(wǎng)頁都同時(shí)增加指向?qū)Ψ降哪繕?biāo)網(wǎng)頁鏈接.此時(shí)兩個(gè)作弊者的目標(biāo)網(wǎng)頁的pagerank值相等, 假設(shè)沒有建立聯(lián)系前各自的值為p和q.作弊后其值等于(p+q)/2 .顯然與未交換鏈接時(shí)候相比,原先分值高的比較吃虧,會(huì)將一部分分值轉(zhuǎn)移到對(duì)方.
?????? ?b.兩人的目標(biāo)網(wǎng)頁互相指向.此時(shí)情況與a相同,不過兩者建立鏈接數(shù)目減少.減少作弊者人工維護(hù)精力.
??????? ?c.兩人的目標(biāo)網(wǎng)頁互相指向,但是將每人目標(biāo)網(wǎng)頁所有指向輔助排名網(wǎng)頁的鏈接去處.此時(shí)兩者的pagerank分值都有所增加.
(3)對(duì)于多個(gè)作弊者的有效合作作弊方式: a. 多個(gè)目標(biāo)網(wǎng)頁鏈接形成環(huán)形. b.多個(gè)目標(biāo)網(wǎng)頁鏈接形成全鏈接. 此時(shí)對(duì)于每個(gè)作弊者來說pagerank值都得到提高,都比未合作前的最高值高.
?二. anti-spam方法
(1) 人工方式
精度高,但是人工耗費(fèi)太大,所以不現(xiàn)實(shí).
(2) 半人工方式
半人工方式應(yīng)該是目前使用比較多的方法,專業(yè)的搜索引擎技術(shù)公司里面往往會(huì)有一批所謂的anti-spam專家來對(duì)這些技術(shù)進(jìn)行研究.目前比較通用的一個(gè)半人工防治策略如下:
?1. 從所有站點(diǎn)隨機(jī)選擇若干站點(diǎn).比如隨機(jī)選擇2000個(gè)站點(diǎn).(也可以有其它類似的優(yōu)化策略,比如選擇知名度高的網(wǎng)站或者YAHOO等收錄的網(wǎng)站作為優(yōu)良網(wǎng)站的基點(diǎn))
2. 從2000個(gè)站點(diǎn)里面人工判斷哪些是優(yōu)良的網(wǎng)站
3. 鏈接分析.基本假設(shè)是優(yōu)良網(wǎng)站指向的網(wǎng)站也是優(yōu)良的.此時(shí)可以采取不同的策略,比如優(yōu)良網(wǎng)站經(jīng)過K個(gè)鏈接所指向的都認(rèn)為是優(yōu)良的.也可以引入衰減因素,離初始優(yōu)良網(wǎng)站越遠(yuǎn)的網(wǎng)站其優(yōu)良性越小.
?4. 對(duì)遍歷過的網(wǎng)站優(yōu)良性能做評(píng)價(jià).此評(píng)價(jià)作為判斷是否作弊網(wǎng)頁的依據(jù).
(3) 自動(dòng)方式
???? 減少人工耗費(fèi),是anti-spam研究的目標(biāo)和方向,但是目前技術(shù)對(duì)于有些作弊方式很難達(dá)到完全自動(dòng)識(shí)別.目前技術(shù)主要還是半人工的方式 . 可以自動(dòng)實(shí)現(xiàn)的方式包括:
?1. 基于內(nèi)容的,比如針對(duì)標(biāo)題作弊,如果發(fā)現(xiàn)正文內(nèi)容出現(xiàn)標(biāo)題文字比例失調(diào),比例太高或者沒有出現(xiàn)過,則認(rèn)為可能是作弊網(wǎng)頁.
2. 對(duì)于頁面內(nèi)容難以形成主題的頁面也很有可能是作弊頁面.
3. 針對(duì)鏈接作弊,如果發(fā)現(xiàn)可能的spam farm結(jié)構(gòu)或者不正常的大量網(wǎng)站內(nèi)部相互鏈接,則判定可能是作弊網(wǎng)站
4. .對(duì)于機(jī)器自動(dòng)生成的作弊頁面進(jìn)行特征分析和自動(dòng)發(fā)現(xiàn).比如機(jī)器生成的鏈接往往很長,包含很多數(shù)字和連接符號(hào)等.
5. 大量不同域名映射到同一IP地址很有可能是作弊網(wǎng)站.
6 .發(fā)現(xiàn)網(wǎng)頁的入度,根據(jù)分布規(guī)律,極少數(shù)的網(wǎng)頁有非常大量的聯(lián)入,所以這些大量聯(lián)入頁面如果不是知名網(wǎng)站則很可能是作弊網(wǎng)站.
???? Web anti-spam領(lǐng)域還是一個(gè)比較新的研究領(lǐng)域,經(jīng)濟(jì)利益不斷驅(qū)動(dòng)人們通過種種”優(yōu)化”策略來提高網(wǎng)頁的排名.所以web spam和anti spam是一個(gè)不斷學(xué)習(xí)不斷斗爭的過程.對(duì)此有興趣的朋友可以和我聯(lián)系(junlin01 AT iscas dot cn )共同學(xué)習(xí)共同提高這個(gè)方面的技術(shù)知識(shí).
超強(qiáng)干貨來襲 云風(fēng)專訪:近40年碼齡,通宵達(dá)旦的技術(shù)人生總結(jié)
以上是生活随笔為你收集整理的搜索引擎web spam类型及防治策略(version 0.9)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。