搜索引擎Autonomy
?
?搜索引擎Autonomy
Autonomy 是基于語義計算 (MBC) 這一快速發展領域公認的領導者。1996 年成立的 Autonomy 是建立在經劍橋大學研究而產生的獨特技術組合之上。公司的迅速發展使得其市值達到了 22 億美元,并且在全球各地都設有辦事機構。
???? Blinkx是一個強大的視頻搜索引擎,可以搜索到福布斯(Forbes), Reuters, BBC, ABC News, CBS, MSNBC, USA Today等最新的的音頻、視頻、播客文件、電視節目等,甚至還能搜索到Blip.TV, Metacafe等由用戶上傳的視頻文件。
Blinkx TV最吸引人的是它的搜索結果的3秒鐘視頻展示,可以幫助你迅速了解和找到你想要的視頻。與其它視頻搜索引擎只索引視頻的meta信息(如視頻主題,描述,標簽,關鍵字等)不同,Blinkx還使用了視頻的音頻部分的語音辨認技術,使搜索結果更加精確。Blinkx的搜索結果都有一個rss feed,方便大家聚合和引用視頻搜索結果。Blinkx目前已經存儲了 700 萬小時的視頻與音頻。
??? Autonomy的“樣板工程”Blinkx 2004年7月,一個位于美國舊金山的創業公司推出了一種新型搜索工具Blinkx,該工具可以提供類似“模糊搜索”或“語義搜索”的功能。也就是說,系統經過“學習”積累了一定“經驗”后,可以滿足用戶類似“最便宜的筆記本電腦是什么”這樣的搜索需求。 有媒體把這種搜索方式稱為“占卜式”搜索,也有人將其稱為“職能搜索”,提供Blinkx搜索工具的公司也叫Blinkx。
Blinkx不僅可以搜索文本內容,還可以搜索電影電視等多媒體內容,不僅可以搜索互聯網內容,還可以搜索本機和局域網上的內容。Blinkx同時還可以搜索不同的文本格式內容,如Text、Word、Excel、PPT、PDF以及各種數據庫中的數據格式。
Blinkx公司同時發布了提供這種新型搜索功能的兩個服務工具,一個是門戶網站(www.blinkx.com),一個是在該網站上可以下載的客戶端軟件,該軟件大小約7MB。盡管這兩個工具目前僅支持英德兩種語言,而且都只是測試版,但它提供的震撼性功能已經開始讓傳統搜索巨頭們為之矚目。
與傳統搜索網站不同的是,在Blinkx的搜索框中鍵入用戶指令,比如“CDMA”,出現的結果可能被系統自動分為10類,可能其中9類與用戶的查詢期望距離較大,用戶就可以將接近的那個結果作為查詢條件,進行第二次查詢,完成“進階式”查詢,通過這種方式逐步接近目標,最后達到用戶期望查詢的結果。
如果安裝了Blinkx的客戶端軟件,一個小的菜單窗口就會出現在Windows Word、Outlook等幾乎所有文檔處理窗口的右上方。用戶在這些窗口中處理文檔時,系統會自動分析這個文檔,然后自動從本機或網絡上抓取相關文章或鏈接,以供用戶參考。不僅如此,它還可以及時提供與文章內容相關的新聞、產品信息、視頻內容等分類信息。簡單地說,用戶完全可以拿一篇文章來作為“查詢關鍵詞”,Blinkx通過對這篇文章進行分析,會給出與這篇文章內容最接近的網絡鏈接或本機文檔。這無疑給需要處理大量數據的個人和企業提供了巨大便利。?
Autonomy公司是Blinkx公司的股東之一,后者的核心技術也來自前者,因為這種密切關系,Blinkx被認為是Autonomy的“樣板工程”。此前,Autonomy一直像汽車發動機一樣隱藏在幕后。Blinkx發布之前,Autonomy在公眾中并沒有太大名氣;Blinkx發布之后,Autonomy僅有的名氣也很快被Blinkx所超越。
Autonomy雖然在公眾中的知名度不太大,但在商業應用領域中卻名聲煊赫,并在政府、國防、新聞、金融、電信、教育等領域擁有大量中堅客戶。而且,Autonomy還是一個“歷史悠久”的IT公司,同時在美國和英國上市,擁有超過1.47億美元的現金。
Autonomy的創始人是劍橋大學的邁克·林克(Mike Lynch)教授。1991年,林克教授創立了Autonomy的前身Nurodynamic公司,后者是林克從一個樂隊老板融資3000多美元創建的,該公司主要致力于劍橋大學模式識別研究成果的產業化工作。
到1996年時,林克教授已經積累了足夠多的客戶資源。于是,他向風險投資商借貸了1500萬美元,創立了Autonomy。同年,Autonomy推出了世界上第一套智能個性化信息系統,同時發布了它的拳頭產品DRE(Dynamic Reasoning Engine,動態推理引擎)和Portal產品系列。
18世紀,英國牧師托馬斯·貝葉斯曾經試圖利用概率論證明上帝的存在,但他未能如愿,不過,他所創立的貝葉斯定律卻奠定了現代概率論的基礎。兩個多世紀以后,這個定律成了Autonomy發家致富的敲門磚。不少數學家認為,貝葉斯定律描述的邏輯是一種跟人類思維模式最接近的數學邏輯,它通過一個概念出現頻率的多少和與其他概念之間的關系來決定其成分的重要性。
香農信息論則提供一種方法來提取一篇文章諸多概念之中最有意義的部分。香農信息論最基本的理論是:一個詞重復頻率越高,其內容越不具有概括性,反之,一個詞重復頻率越低,其內容越豐富。
Autonomy中含有一個動態推理引擎(Dynamic Reasoning Engine,DRE),它是一個擴展性很強的、多線程的核心引擎。信息的概念分析、內容提取、概念模式識別、相關度計算等關鍵工作都由動態推理引擎來完成。它是一個跨平臺的引擎,可以在多種硬件和操作系統環境下優化運行,支持從Intel PC使用的Windows NT到多處理器小型機運行的UNIX等系統環境。它可以與各種不同信息源相連,如互聯網、數據庫、內部網和本機數據庫、文件系統等。當用戶發出搜索指令后,它可以通過概念分析、模式識別、相關度計算等方法,從不同的數據源中找到與用戶要求最匹配的信息。
從“搜索(search)”到“發現(discover)”
Autonomy在保留了傳統搜索方法的基礎上,還發展了新的方法。
目前,人類研究的信息搜索技術有四個方向:關鍵字搜索,模式識別,語義分析,神經網絡。除了關鍵詞搜索比較成熟外,其他三項技術還處于待開發狀態。模式識別的代表者就是Autonomy,語義分析和神經網絡兩個技術方向目前尚無壓倒性的代表者,這兩個技術方向的研究難度相對較大,估計一時半會不會有突破性研究成果。所以,模式識別就成了目前比較先進的信息搜索技術。
傳統搜索基本上采用“關鍵詞”搜索方式,也就是“非0即1”的方式,它基于嚴格定義和分類的布爾表達式,即“與、或、非”表達式。這樣搜索的最大弊病就是:如果關鍵詞不確定,或者有錯誤疏漏,用戶往往得不到自己想要的搜索結果。
但在實際應用中,用戶常常很難用具體而明確的關鍵詞來描述自己想找的東西,比如上述的“最便宜的筆記本電腦”等等。甚至在有些時候,搜索出來的結果大部分與這個關鍵詞并沒有太大關系,只是結果文章中出現過這個詞而已。例如,一個用戶希望了解污染對企鵝造成的影響,使用關鍵詞搜索法,鍵入“企鵝”,搜索結果可能帶來一些有用的信息,但同時也有大量不相關的文章,如“企鵝出版公司”、“企鵝牌巧克力”、“企鵝冰箱”等。
采用“模式識別”搜索方法,可通過判別相關識別度的高低來對數據進行檢索。即它會對用戶鍵入的檢索內容進行語意上的分析,然后對海量信息進行概念匹配,找出在內容上最接近的數據提供給用戶,所以可以避免傳統“關鍵詞檢索”造成的漏檢情況的發生。比如一篇文章里如果有“大海”這個詞,這篇文章有可能和企鵝有關,但是“大海”這個詞用在很多不同的地方,有可能文章講的是別的內容。但是如果一篇文章里有“大海”、“南極”、“黑色”、“白色”、“不會飛”、“羽毛”、“下蛋”、“石油”、“泄露”等這些詞,這篇文章是在談論污染和企鵝的概率就會很高。雖然整篇文章里沒有“企鵝”這個詞,但是很多相關度較低的詞出現在一起就會帶來很高的相關度,并且缺少某個描述詞對其產生的結果影響微乎其微[x1]?。
如果說傳統的“關鍵字”搜索方法為“search”(搜索)的話,autonomy采用的“模式識別”方法則應該稱為“discover”(發現),因為它可以讓用戶找到一些事前他們不知道的信息。Autonomy產品中提供的“聚類”功能正是“從搜索到發現”的最佳表現。
如果一個用戶需要知道“本月最熱門的IT新聞事件有哪些”,使用Autonomy的“聚類”功能就可以得到近乎完美的答案。第一步,用戶先設定一些需要搜索的目標網站,根據“本月最熱門的IT新聞事件有哪些”這個需求,這些目標網站自然是一些IT新聞網站;第二步,通過Autonomy的DRE對這些網站上本月內報道的IT新聞進行檢索;第三步,對這些新聞進行分類,報道數量最多最頻繁的前幾件事情就是“本月最熱門的IT新聞事件有哪些”的候選者。這是沒有計算機幫助時的人工作法,現在,這些步驟都由安裝了Autonomy軟件的計算機來完成,用戶只需要“發動”一下這個系統:給“本月最熱門的IT新聞事件有哪些”這個搜索需求設定一些關鍵參數。
當然,設置關鍵參數對非專業人士而言并不是一件容易的事情,一開始可能有些麻煩,不過,隨著這個不斷“學習”的系統的后臺數據庫數據量的增加,用戶需要設置的參數可能會越來越少,甚至做到直接用“本月最熱門的IT新聞事件有哪些”就可以一步到位搜索到用戶所需要的。當然,用戶這個系統不可能像google的檢索數據庫一樣包羅萬象[x2]?,只能在某些個別領域(如IT新聞、環境污染等)成為一個“專家”,這個“專家”在面對來自其他領域或行業的問題時,一開始一樣是個傻瓜。
?
處理非結構化數據的利器
?
?
何謂非結構化數據:相對于結構化數據(即行數據,存儲在數據庫里,可以用二維表結構來邏輯表達實現的數據)而言,不方便用數據庫二維邏輯表來表現的數據即稱為非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。
“只要存在非結構化數據,就對autonomy有需求。”Autonomy公司的代理商卓越動力認為,對于那些非結構化的數據,Autonomy提供的功能是十分有效的。而隨著互聯網的大規模普及,非結構化數據將越來越多,遠遠超過了結構化數據的數量。對于企業而言,如何處理數量如此龐大的非結構化數據,比個人的需求更加迫切。
企業對文檔的處理可分為三個發展階段。最初是文件系統,通常是樹型目錄結構的文件管理器。當文件大量出現后,樹型目錄已經無法管理一些邏輯性和結構性很強同時又關系復雜的數據,于是出現了關系型數據庫,通過數據庫管理工具對數據進行安全管理、備份管理、分類管理等,也就是把非結構化文檔結構化,變成計算機能夠讀懂的數據和關系。這是第二個階段。
第三個階段是在互聯網出現后,隨著大批非結構化數據的出現,單純將非結構化數據轉化成結構化數據的工作需要耗費大量的人力和物力,同時還往往需要把結構化的數據又重新以非結構化方式輸出,這樣轉換來轉換去,導致了大量資源浪費和成本支出。所以,如何不轉換就能直接處理非結構化數據,成了迫在眉睫的問題,Autonomy的功能正好應運而生。
Autonomy通過保持數據原型,通過架設自己的平臺來對數據進行管理。從而完成從信息與信息的互動,到人與信息的互動,最終達到人與人的互動。此外,Autonomy還可以建立文字與視音頻片段的對應,從而完成新聞媒體里的新聞和談話節目的數據管理工作。
目前,Autonomy在國外比較成功的應用案例集中在媒體、政府機構、金融和信息產業等需要集中處理大量非結構化數據的領域。
2003年3月,Autonomy進入中國市場,目前主要集中在電信和政府市場。在企業內部,Autonomy是追求建立符合企業內部數據管理需求的平臺,可將放在不同位置的不同類型的數據進行有效梳理。“搜索”不是autonomy的最終目的,抽取最需要的信息進行“信息集成”,搭建知識管理平臺才是Autonomy的應用方向[x3]?。
Autonomy代理商卓越動力認為,政府機構和一些需要對信息進行監控的機構是該系統在中國的潛在市場。 ?
隨著互聯網的多元化,大量網上違法信息都不以關鍵詞形式出現。例如,政府有關部門要打擊網上非法買賣違禁藥物,使用“搖頭丸”、“興奮劑”等關鍵詞搜索出來的內容多數是關于藥物危害、打擊犯罪等方面的正面文章,而出現“興奮”、“購買”、“單價”等關鍵詞的文章,則與非法買賣違禁藥物的相關度最高。通過這種非關鍵詞搜索的“模式識別”搜索,政府監控部門可以有效打擊日益猖獗的網上犯罪。
資料
Autonomy的工作原理
Autonomy的核心是建立在獨特的信息論和概率論的基礎之上的模式識別技術,它可以保證對任何形式的信息:文本文件或基于語音、視頻、非結構化或結構化的實際內容的基本理解。
現在網絡應用軟件主要為三層結構:用戶界面層、應用軟件層和數據層。這樣的結構所存在的問題是,不同的應用軟件不能實現信息共享。信息源與信息源之間有不可跨越的屏障,來自不同信息源的信息有不同的格式。Autonomy創建了一個新的信息層:智能信息操作層IDOL,自動把各個信息源和各種文件格式統一在一個智能的信息操作系統之下,這個智能信息操作系統可以提供多種信息操作的功能,比如信息的實施自動鏈接,信息自動分類,內容概括,信息聚類等。
Autonomy在系統內創建一個新層,即智能數據操作層(intelligent data operating layer, IDOL),從而使企業系統“以數據為中心”。該操作平臺后端與各種數據源相連,可以根據任何語言和格式進行內容搜索,不論內容存放在哪里,自動實時地將總結以及與其類似信息的鏈接呈現出來。由于autonomy的技術是建立在概率性建模之上,因此不依賴任何語言進行分析,無需維護任何繁瑣的詞表,IDOL將此看成是意義的抽象符號,它通過詞出現時的上下文環境而不是通過嚴格的語法定以來形成對該詞的理解,從而識別進入到autonomy架構中的任何數據的語言特性。
另外,autonomy還具有分類和聚類功能。IDOL自動根據非結構化文本中的概念對信息進行分類,可以保證根據內容對所有數據進行最準確的分類。而自動聚類可以收集大量的文檔數據或用戶檔案信息,并且自動識別出信息內的主要類別,讓IDOL自動的持續一致的計算新的信息應該屬于哪個類別。
???????????????????????????????? 企業非結構化信息搜索的商機,引得眾多IT巨頭紛紛加入搜索戰團,處理非結構化信息的桌面搜索模式成為競爭焦點。微軟、IBM、Autonomy、Yahoo、AOL等和Google正在開展直接的競爭。
?
?
Google推出了Google Scholar和Google Suggest搜索工具測試版,Google Scholar主要致力于學術和科技資料的搜索。Google Suggest功能更為奇特,當用戶鍵入幾個關鍵詞后,它就能猜出您搜索的內容。
據Google公司內部消息透露,公司正在加緊研制桌面搜索工具的企業版,這將給企業IT管理者更大的搜索信息控制權。企業版搜索工具的顯著特點是:具有口令保護功能,支持單系統上多程序搜索。目前,業內尚不知其實際效用。Google桌面搜索功能將整合在Google搜索工具中。
微軟這位軟件巨人,也緊隨Google和其它公司創新的步伐,并于2004年12月10日公布了WinFS,又在幾天后宣布推出桌面搜索工具測試版本,并稱在今年正式的搜索版本將與用戶見面。
IBM公司的研究人員描述了公司“未來搜索”的概念,并演示了即將生產和銷售的幾種不同產品。日前,IBM推出了OmniFind,這也是公司解決搜索問題新戰略的第一步。據IBM稱,這種稱之為“非結構性信息管理架構”或是UIMA的模式,將引領第三代信息搜索的潮流。新的搜索工具將使進一步搜索成為可能,這種“發現系統”將能辨別存儲信息中潛在的意義,不論這種信息是什么結構(數據庫、電子郵件、錄像、圖片或是視頻信息),不論它是什么語言,都能一網打盡,這種搜索包括業內多年以來都在苦苦探索的“自然語言處理”、外語計算機翻譯以及其它棘手的技術。
IBM公司負責這項研究工作的人士指出,使用Google搜索方式,用戶可找到世界各地不同語言的網頁資料,但其速度較慢,而且結果令人迷惑。而IBM采用的是稱之為Piquant的語義搜索形式,能對沒有出現的知識進行智能搜索。比如,當搜索出一篇關于加拿大總理的文章時,它會自動提示一個問題“誰是加拿大總理”?甚至還會出現一些文章中未出現的東西。
最近,Autonomy透露了其新搜索工具的詳細情況,Autonomy公司推出的企業桌面搜索工具IDOL(如圖2),具有先進的身份認證和SSL加密技術,它允許用戶搜索在電腦桌面、企業網絡、網站以及地區數據源上存放的文檔、電郵、網站以及多媒體信息。
Google的搜索與廣告合作伙伴—AOL于2004年10月14日證實它正在測試一種新搜索引擎。這種搜索引擎與Google產品類似,都可以搜索Word和Excel等Microsoft Office文件、照片、音樂,以及來自AOL Instant Messenger的聊天日志和以前看過的IE網頁。
不久前,雅虎公司宣布使用X1系統作為其桌面搜索工具的基礎。AskJeeves、EarthLink以及小型搜索公司dTSearch、Copernic、Accoona也都加入了搜索大戰。Copernic也推出了Copernic桌面搜索1.2版本(Copernic Desktop Search Version 1.2),而ISYS搜索軟件公司也宣布將于明年早些時候升級其先前的搜索工具。
Autonomy的技術特點
Autonomy軟件設計的原則是無需用戶改變已有的使用習慣,也不用改變已有的系統架構、應用程序和存儲結構,甚至不需要改變已有的用戶界面。Autonomy在保留了傳統搜索方法的基礎上,還發展了新的方法,它支持所有的傳統式的檢索和設置方式,包括關鍵詞、邏輯語言、布爾語句等,同時提供給用戶更多更簡潔的定義方法,還可以采用自然語言的設置方法或通過反饋的文章代替人工設置,而不需要采用有諸多限制的標準詞或關鍵詞。Autonomy通過自身軟件架構的靈活性來適應已有系統架構,并可以嵌入到已有的應用系統中去,在熟悉的界面之下提供新的功能。Autonomy通過對文章的概念匹配和關聯,擺脫了很多關鍵詞檢索的弊病和局限性,所達到的信息內容價值的釋放是關鍵詞搜索引擎望塵莫及的。
Autonomy中含有一個動態推理引擎(Dynamic Reasoning Engine,DRE),它是一個擴展性很強的、多線程的核心引擎。信息的概念分析、內容提取、概念模式識別、相關度計算等關鍵工作都由動態推理引擎來完成。動態推理引擎是一個跨平臺的引擎,可以在多種硬件和操作系統環境下優化運行,支持從PC使用的Windows NT操作系統到多處理器小型機運行的Unix等系統環境。它可以與各種不同信息源相連,如互聯網、數據庫、內部網和本機數據庫、文件系統等。當用戶發出搜索指令后,它可以通過概念分析、模式識別、相關度計算等方法,從不同的數據源中找到與用戶要求最匹配的信息。
Autonomy的技術特點和優勢主要有以下幾點:
自動內容綜合和精煉 Autonomy讓系統了解自己現有信息資產的狀況,不論信息源、格式或媒介如何,都可以進行統一的操作。Autonomy能操作的信息包括非結構化的數據,如HTML頁面、字處理文檔、電子表格、電子郵件及半結構化數據(XML),以及結構化數據,如RDBMS表格和Lotus Notes。而且,Autonomy還可以綜合并且理解豐富的多媒體內容,例如音頻、視頻和圖像的概念。綜合是從不同的信息數據庫里收集、抽取和導入內容、元數據及安全數據以供Autonomy的企業桌面搜索工具(IDOL)分析的過程。
個性化操作 基于個人的檔案(profile),Autonomy可以提供廣泛的強大的個性化操作,為用戶提供條件,讓他們登記自己的興趣,了解與他們個人興趣喜好相關的信息。Autonomy的自動個性化解決方案,可以實現對目標產品或內容的高度個性化。企業應用的集成提高了生產力,個性化解決方案可以讓用戶有能力更為突出與眾不同的核心競爭力,并且更快地做出正確的決策。
信息自動分類 Autonomy獨有的自動信息聚類,避免了相關人員的手工分類的麻煩,將相關網站信息進行全自動分類,實時、客觀地反映出每一個科學門類的信息變化。這與其它的模板式的自動分類機制有著本質的區別。Autonomy的架構可以識別信息間的主要關系,從而實現內容間的交叉索引對照。最為關鍵的是,Autonomy的這一切工作是在絕對無需人工干預的情況下進行的,這對于企業的應用來講是至關重要,全自動化的工作保證了時間、效率、結果的穩定與科學。
主動匹配 企業的信息需求可能涉及的范圍很廣,從網站上最酷的新聞到剛剛播放的電視畫面,“主動匹配”可以自動幫用戶做這項工作,這樣用戶可以更快地做出正確的決策,消除重復勞動,并且可以在用戶日常工作中充分利用整個企業提供的信息系統為各個相關部門和人員提供有價值的信息。主動匹配可以將典型的文檔或以數字為中心的用戶界面轉變成以任務為導向的智能界面,可以識別用戶當前的問題,確定相關的信息并且積極主動地提示用戶,讓用戶了解到相關內容。
?趙金輝整理?
?
?
總結
以上是生活随笔為你收集整理的搜索引擎Autonomy的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 百度云网盘链接用aria2下载
- 下一篇: Android实现手机内存存储功能