Daily Report 2012/11/09 陈伯雄(step 9)
今天的工作是完成把之前建立的倒排索引和數據庫搜索匹配模塊嵌入到主體工程中,等待運行和測試。
但是,現在的數據庫搜索方法精度還不夠,天真把每個關鍵詞一視同仁地處理了,這樣的后果可能回造成用戶搜索體驗不佳。
為此我查詢了一下影響相關性的主要因素相關資料:
(1)關鍵詞常用程度。經過分詞后的多個關鍵詞,對整個搜索字符串的意義貢獻并不相同。越常用的詞對搜索詞的意義貢獻越小,越不常用的詞對搜索詞的意義貢獻越大。例如,用戶輸入的搜索詞是“我們冥王星”。“我們”這個詞常用程度非常高,在很多頁面上會出現,它對“我們冥王星”這個搜索詞的辨識程度和意義相關度貢獻就很小。找出那些包含“我們”這個詞的頁面,對搜索排名相關性幾乎沒有什么影響,有太多頁面包含“我們”這個詞。而“冥王星”這個詞常用程度就比較低,對“我們冥王星”這個搜索詞的意義貢獻要大得多。那些包含“冥王星”這個詞的頁面,對“我們冥王星”這個搜索詞會更為相關。所以搜索引擎對搜索詞串中的關鍵詞并不是一視同仁地處理,而是根據常用程度進行加權。不常用的詞加權系數高,常用詞加權系數低,排名算法對不常用的詞給予更多關注。
(2)詞頻及密度。一般認為在沒有關鍵詞堆積的情況下,搜索詞在頁面中出現的次數多,密度越高,說明頁面與搜索詞越相關。當然這只是一個大致規律,實際情況未必如此,所以相關性計算還有其他因素。出現頻率及密度只是因素的一部分,而且重要程度越來越低。
(3)關鍵詞位置及形式。就像在索引部分中提到的,頁面關鍵詞出現的格式和位置都被記錄在索引庫中。關鍵詞出現在比較重要的位置,如標題標簽、黑體、H1等,說明頁面與關鍵詞越相關。這一部分就是頁面SEO所要解決的。
(4)關鍵詞距離。切分后的關鍵詞完整匹配地出現,說明與搜索詞最相關。比如搜索“減肥方法”時,頁面上連續完整出現“減肥方法”四個字是最相關的。如果“減肥”和“方法”兩個詞沒有連續匹配出現,出現的距離近一些,也被搜索引擎認為相關性稍微大一些。
(5)鏈接分析及頁面權重。除了頁面本身的因素,頁面之間的鏈接和權重關系也影響關鍵詞的相關性,其中最重要的是錨文字。頁面有越多以搜索詞為錨文字的導入鏈接,說明頁面的相關性越強。
剩下的工作就是朝這個方向優化數據庫搜索功能。
轉載于:https://www.cnblogs.com/DOOM-scse/archive/2012/11/09/2763316.html
總結
以上是生活随笔為你收集整理的Daily Report 2012/11/09 陈伯雄(step 9)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 乌鲁木齐乌房东庭居是毛坯房还是精装修?
- 下一篇: 乌鲁木齐金茂海棠花园是毛坯房还是精装修?