PageRanke算法
生活随笔
收集整理的這篇文章主要介紹了
PageRanke算法
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
PageRanke算法的工作原理
PageRank的作用是評價網頁的重要性,以此作為搜索結果的排序重要依據之一。
早期的搜索引擎的做法:
一、根本不評價結果重要性:
直接按照某自然順序(例如時間順序或編號順序)返回結果,只能適用于結果集比較少的情況。
二、基于檢索詞的評價 TF-IDF:
基于檢索詞評價的思想非常樸素: 檢索詞匹配度越高的頁面重要性越高。 “匹配度”就是要定義的具體度量。一個最直接的想法是關鍵詞出現次數越多的頁面匹配度越高。但是這樣會造成一種情況。 如果我們的的文章比較長,那么比較長的文章比比較短的文章網頁關鍵詞出現的次數就會多一些,這樣我們基于檢索詞評價結果的重要性就顯得不合理。 所以有人對算法做了 改進 , 使用關鍵詞出現的次數/文章的總詞數 ,這種算法看起來很合理但是非常容易受到"Term Spam”的攻擊。
通過一個例子介紹 Term Spam:
現在假設Google單純使用關鍵詞占比評價頁面重要性,而我想讓我的文章在搜索結果中排名更靠前(最好排第一)。那么我可以這么做:在頁面中加入一個隱藏的html元素(例如一個div),例如我知道現在歐洲杯很火熱,我就在我博客的隱藏div里加一萬個“歐洲杯”,當有用戶搜索歐洲杯時,我的博客就能出現在搜索結果較靠前的位置。 這種行為就叫做“Term Spam”。 這種行為甚至可以干擾別的關鍵詞搜索結果。
早期搜索引擎
總結
以上是生活随笔為你收集整理的PageRanke算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Apriori关联规则算法
- 下一篇: EM聚类算法