如何实施好基于MOSS的企业搜索项目(上)
文章目的:希望通過此文,能讓讀者了解搜索的本質和基于MOSS的企業搜索方案,在此基礎上站在項目管理角度掌 握如何實施好這類方案的項目的關鍵點,確保企業搜索項目成功交付。由于文章長度限制,本文分上下兩部分,上部分包含搜索簡介和基于MOSS的企業搜索的方 案說明;下部分將涉及站在項目管理角度如何實施好這類方案。
一、企業搜索簡介
??? 搜索,目前是個比較熱門的詞。一提到搜索,我們的第一反應就是Bing、Google或Baidu。事實上,搜索的定義范圍更廣。一般上按應用范圍劃分,我們將整個搜索行業分為互聯網搜索、企業搜索(局域網)和桌面搜索(個人電腦桌面)三個層面。目前,每個層面都有許多知名產品占據著主要地位。如下圖所示:
??? 在這里我們就不重點去說各個產品的優缺點對比了。我們需要更加關注的是,所有的搜索產品具有的共性,或者說,搜索解決方案的核心運作模式。這點對我們后面的項目目標范圍確定、方案設計、項目的具體實施等都具有非常關鍵指導作用。
??? 站在使用者角度,回想一下你通過Bing、Google或Baidu進行搜索的主要場景:輸入關鍵字,按搜索按鈕進行查找,然后搜索引擎羅列出找到的所有 信息條目。然后,我們換個角度,站在搜索產品(或者說搜索引擎)的角度,思考下它的主要場景,將會得出所有搜索產品的核心運作模式:內容源–>搜索引擎–>呈現結果。如下圖所示:
??? 首先,內容源是基礎。在客戶內部,肯定事先有大量的數據內容以各種形式存放在各種地方(如存放于Web站點的網頁、存放于共享文件夾里的各種文檔、存放于業務系統中的業務數據等等),這種現象造成的各種問題(如數據難以共享、數據難以萃取成有價值的信息等)就是客戶的煩惱痛點所在。換個角度說,也就是我們搜索解決方案項目要解決的問題。
??? 其次,搜索引擎是技術手段。用搜索引擎來對所有的內容源進行數據信息提取、清洗、分類整理乃至智能分 析、相關度設置等,以形成各種有價值的信息提供給使用者。也就是說,搜索引擎是我們萃取數據為信息的一種技術手段。好的搜索引擎除了在性能上體現為更快, 在數據的分析整理等涉及到數據質量問題的處理上也更加智能化、個性化。這也就是為什么說性能好壞和數據信息質量的好壞是判斷搜索引擎好壞的兩個主要標準 了。因此,在我們實施企業搜索的項目中,這點是項目的關鍵技術點,需要進行比較多的技術攻關工作。
??? 第三,呈現結果是目的。通過搜索引擎進行數據萃取后,最終將結果呈現給使用者。呈現結果的機制也可以看成是搜索引擎的一部分,只是它表述更多的是一種用戶體驗,將搜索結果以更好的用戶體驗方式呈現給最終用戶。就像上面提及的,站在使用者的角度,他所關心的就是“幫我尋找我要的信息”——既要找到信息,而且找到的信息是我要的。這兩點也正好是搜索解決方案所要達到的的目標。
??? 在宏觀上理解了搜索后,接下來我們簡單了解下企業搜索。企業搜索自然也遵循上述搜索核心運作模式,同時具有自己的一些典型特征:
- 內容源:企業局域網內的各種資源,包括位于企業內部門戶網站、共享文件夾、FTP站點、Exchange公共文件夾等內的各式各樣的文檔資料及業務系統內部的業務數據等。
- 范圍:主要針對企業局域網內部的資源。
- 數據量:中等(相對互聯網搜索來說)。
- 安全性:安全性要求高且靈活。
- 爬網索引:依企業IT管理策略而定制。
二、基于MOSS的企業搜索方案
??? 在搜索行業的三個層面里,微軟都有相應的主流產品——互聯網搜索的Bing,企業搜索的MOSS/FAST和桌面搜索的WDS。對于企業搜索,微軟又分別做了市場細分,針對每種細分場景提供相應的企業搜索產品和方案。
??? 我們這里只談基于MOSS的企業搜索解決方案,對于微軟的其他企業搜索產品,如Search Server、FAST等這里就略過,其實站在“實施好企業搜索項目”這個方向上大致原理都類似,區別的僅僅只是其中具體技術細節。
??? 根據搜索的核心運作模式,結合MOSS特點,整個基于MOSS的企業搜索解決方案主要包括以下內容:
- 內容源的梳理:內容源是搜索方案的基礎。內容源的梳理工作做得好,將起到事半功倍的作用。這點在后面如何實施好搜索項目中將具體細化講述。
- 搜索引擎的定制:根據需求對MOSS搜索引擎做相應的功能定制,比如支持PDF和AutoCAD文檔索引、支持爬FTP站點、相關度調整、用戶權限的整合等。這方面的定制將涉及MOSS搜索引起的幾個關鍵技術點,將在后面如何實施好搜索項目中進一步描述。
- 良好的用戶體驗:根據用戶對信息格式的要求和使用習慣設計搜索呈現結果相關頁面。除了基本的搜索結果元素呈現外,還包括最佳匹配、熱門關鍵字、關聯提示、聯合搜索等。
- 部署方案:根據數據量、用戶量及客戶的實際IT環境設計部署方案。諸如需要多少臺服務器、各種角
色的服務器怎么安排、對網絡帶寬的要求等。同時應該提出在可見的未來,數據量持續增加或用戶量增加的情況下,如何調整以適應新情況。 - 持續的運維規范: 持續的運維優化,是所有基于MOSS的方案(包括企業搜索)必須涵蓋的內容。只有通過一系列的管理、運營、維護規范來保證MOSS應用的正常運作,才能使得MOSS應用富有生命力。
??? 基于MOSS的企業搜索方案的系統架構圖如下所示:基于MOSS的企業搜索應用設計成為既是一個企業搜索應用,同時是一個可以為第三方應用提供搜索服務的基礎服務。
??? 由于篇幅考慮,針對基于MOSS的企業搜索方案的部署方案(大型、中型、小型三種部署方案)、MOSS企業搜索的技術架構等方案涉及的各個內容的細節就不做具體描述。這些均可以在MOSS SDK或MSDN相關文章上查閱到相關內容。
??? 【總結】:上半部分內容,主要掌握“內容源–>搜索引擎–>呈現結果”的搜索核心運作模式。以此來貫穿整個企業搜索方案的各個部分,甚至后面下半部分提及的如何實施好企業搜索方案項目也將會用這條主線結合項目過程交付管理來描述。
轉載于:https://www.cnblogs.com/shihao/archive/2011/09/02/2163901.html
總結
以上是生活随笔為你收集整理的如何实施好基于MOSS的企业搜索项目(上)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C语言学习9(循环结构:while语句)
- 下一篇: Async Mode: Future使用