好文分享:Google的潘多拉星球
生活随笔
收集整理的這篇文章主要介紹了
好文分享:Google的潘多拉星球
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
Google搜索引擎的使命,就如同它的界面一樣簡單:左邊有一大堆(持續(xù)增加中的)信息,右邊有一位用戶需要某個問題的答案,于是搜索引擎負責從左邊的信息中挑選出適合做答案的部分并交給這位用戶。
在 搜索引擎的運行過程中有四個過程,crawl(爬行)指派出蜘蛛在萬維網(wǎng)上搜集信息,index(目錄)則將這些信息整理儲存,然后通過 relavance(相關(guān)性)選出適合信息,最后deliver(傳送)給需要答案的用戶。問題是,在這四個過程中,只有crawl、index和 deliver像是機器能完成的任務,完成relevance 則需要人類的思維。如果我們將搜索引擎想像成一個人,那么它的工作核心,就是理解人類用戶的知識和認識,它需要“懂得”用戶的提出問題,也需要“懂得”相 應的答案,否則就無法完美完成“匹配”的工作。
在上世紀90年代初期,搜索引擎這種東西剛出現(xiàn)的時候,其工作機制離“人工智能”還很遠很 遠。Google之前的搜索引擎如Altavista、Excite等等,其工作機制基于Priority(重要性排名)。排名只是一個指標,可以從很多 緯度和角度來設(shè)立,比如說某個頁面的流量越大排名就越高,或者頁面上出現(xiàn)搜索詞的次數(shù)越多則排名越高,等等。顯而易見的,這類排名系統(tǒng)很容易被作弊手段攻 破,比如說在頁面上隱藏一堆與頁面實際內(nèi)容無關(guān)的搜索詞來吸引搜索引擎的注意。
當時,Google也在給頁面排名——無論如何,當搜索引擎 為用戶呈現(xiàn)結(jié)果的時候,多個結(jié)果總要按一定順序排列出來才行。而Google的精彩之處在于Page Rank機制,根據(jù)某個頁面與其它頁面的交叉鏈接程度來確定頁面內(nèi)容的可信度。例如,如果某個含有“比爾 克林頓”字樣的頁面被白宮的網(wǎng)站引用了,那么這個頁面與比爾 克林頓的關(guān)聯(lián)就很可能值得信賴。打個比方來說,其它搜索引擎的排名根據(jù)是“頁面聲稱自己很靠譜”,而Google的排名則根據(jù)“很多人說這個頁面很靠 譜”,相比之下顯然后者更為可靠。
這種可靠性確保Google迅速擊敗對手,成為網(wǎng)絡用戶搜索的不二之選。大量的用戶涌到Google,大 量的搜索行為時刻發(fā)生。每次搜索都意味著用戶提出了問題,Google給出的搜索結(jié)果則是Google對這個問題的回答。接下來還有更奇妙的事情:用戶對 Google的搜索結(jié)果進行評價——如果他們點擊了前幾位的結(jié)果鏈接,則意味著Google答對了這道題;如果他們翻了好幾頁,或者更換搜索詞重新嘗試, 則意味著Google的本次回答不靠譜。
Google迅速認識到了這一點:用戶在教育搜索引擎。就好比老師教育學生并用考試來考察,學生答 對問題就給個勾,打錯了就畫個叉,然后換一道類似的題,學生最終答對就意味著他/她掌握了這個知識點。每一位用戶在搜索的時候都在教育 Google,Google不斷嘗試新的答案,直到它有一天在這個問題上不斷獲得對號——它學會了。
這大概是歷史上最精彩的用戶與產(chǎn)品交互 促進的案例。用戶的使用過程本身幫助產(chǎn)品不斷改進,而產(chǎn)品的改進反過來助益用戶。網(wǎng)絡產(chǎn)品的瞬時性和直接性,以及Google所擁有的頂級科學家與工程 師,使得搜索引擎的學習過程變?yōu)楝F(xiàn)實。hot(熱)與boiling(沸騰)意思相近,puppies(小狗崽)與dog(狗)差不多一樣,但是與hot dog(熱狗面包)相關(guān)的是面包饅頭芥末醬,而不是boiling puppies(沸騰的小狗崽)!基于每秒鐘都在大量積累的知識和常識,搜索引擎開始自動識別用戶的語言并試圖揣測用戶的真實意圖。
到了這 一步,Google賴以起步的Page Rank就完成了歷史使命。搜索引擎已經(jīng)積累(并且在不斷學習)足夠的可靠的知識,而且能在理解問題的基礎(chǔ)上給于回答。搜索引擎自己足夠正確和自信,不再 需要Page Rank為它的回答進行背書。于是,到了2009年底,Google宣布取消Page Rank機制。這個宣告在當時引起了酣然大波,畢竟多少年來站長們的奮斗目標就是頁面上的PR數(shù)字,而這個目標卻在一瞬間成了浮云。當時也有很多揣測,主 流的說法Google是為了防范針對PR的作弊機制才采取這一舉動。然而,“防范”這種被動而無奈的行為并不符合Google的風格。真正的原因是,它有 了更好的辦法。
就像我們每個人從一無所知的新生兒開始,逐漸成長為在復雜的現(xiàn)實中順利生存的個體,我們每個人都是一個學習和反應的機制。我 們從零開始,學習和儲存了各種知識和常識,并在這些知識和常識的基礎(chǔ)上形成了直覺和經(jīng)驗。然后,當我們遇到現(xiàn)實問題的時候,我們在自己的儲備中調(diào)出最適合 應對的那個部分。
今天的Google正在做類似的事情。作為這個星球上最幸運的學生,有無數(shù)老師不斷向它輸送知識并且每時每刻幫它糾錯。它也很好的回報了這個世界,它為世界上無數(shù)用戶提供答案,正如同學習成績優(yōu)秀的學生經(jīng)常幫助其他同學答疑解難。
在 搜索引擎的運行過程中有四個過程,crawl(爬行)指派出蜘蛛在萬維網(wǎng)上搜集信息,index(目錄)則將這些信息整理儲存,然后通過 relavance(相關(guān)性)選出適合信息,最后deliver(傳送)給需要答案的用戶。問題是,在這四個過程中,只有crawl、index和 deliver像是機器能完成的任務,完成relevance 則需要人類的思維。如果我們將搜索引擎想像成一個人,那么它的工作核心,就是理解人類用戶的知識和認識,它需要“懂得”用戶的提出問題,也需要“懂得”相 應的答案,否則就無法完美完成“匹配”的工作。
在上世紀90年代初期,搜索引擎這種東西剛出現(xiàn)的時候,其工作機制離“人工智能”還很遠很 遠。Google之前的搜索引擎如Altavista、Excite等等,其工作機制基于Priority(重要性排名)。排名只是一個指標,可以從很多 緯度和角度來設(shè)立,比如說某個頁面的流量越大排名就越高,或者頁面上出現(xiàn)搜索詞的次數(shù)越多則排名越高,等等。顯而易見的,這類排名系統(tǒng)很容易被作弊手段攻 破,比如說在頁面上隱藏一堆與頁面實際內(nèi)容無關(guān)的搜索詞來吸引搜索引擎的注意。
當時,Google也在給頁面排名——無論如何,當搜索引擎 為用戶呈現(xiàn)結(jié)果的時候,多個結(jié)果總要按一定順序排列出來才行。而Google的精彩之處在于Page Rank機制,根據(jù)某個頁面與其它頁面的交叉鏈接程度來確定頁面內(nèi)容的可信度。例如,如果某個含有“比爾 克林頓”字樣的頁面被白宮的網(wǎng)站引用了,那么這個頁面與比爾 克林頓的關(guān)聯(lián)就很可能值得信賴。打個比方來說,其它搜索引擎的排名根據(jù)是“頁面聲稱自己很靠譜”,而Google的排名則根據(jù)“很多人說這個頁面很靠 譜”,相比之下顯然后者更為可靠。
這種可靠性確保Google迅速擊敗對手,成為網(wǎng)絡用戶搜索的不二之選。大量的用戶涌到Google,大 量的搜索行為時刻發(fā)生。每次搜索都意味著用戶提出了問題,Google給出的搜索結(jié)果則是Google對這個問題的回答。接下來還有更奇妙的事情:用戶對 Google的搜索結(jié)果進行評價——如果他們點擊了前幾位的結(jié)果鏈接,則意味著Google答對了這道題;如果他們翻了好幾頁,或者更換搜索詞重新嘗試, 則意味著Google的本次回答不靠譜。
Google迅速認識到了這一點:用戶在教育搜索引擎。就好比老師教育學生并用考試來考察,學生答 對問題就給個勾,打錯了就畫個叉,然后換一道類似的題,學生最終答對就意味著他/她掌握了這個知識點。每一位用戶在搜索的時候都在教育 Google,Google不斷嘗試新的答案,直到它有一天在這個問題上不斷獲得對號——它學會了。
這大概是歷史上最精彩的用戶與產(chǎn)品交互 促進的案例。用戶的使用過程本身幫助產(chǎn)品不斷改進,而產(chǎn)品的改進反過來助益用戶。網(wǎng)絡產(chǎn)品的瞬時性和直接性,以及Google所擁有的頂級科學家與工程 師,使得搜索引擎的學習過程變?yōu)楝F(xiàn)實。hot(熱)與boiling(沸騰)意思相近,puppies(小狗崽)與dog(狗)差不多一樣,但是與hot dog(熱狗面包)相關(guān)的是面包饅頭芥末醬,而不是boiling puppies(沸騰的小狗崽)!基于每秒鐘都在大量積累的知識和常識,搜索引擎開始自動識別用戶的語言并試圖揣測用戶的真實意圖。
到了這 一步,Google賴以起步的Page Rank就完成了歷史使命。搜索引擎已經(jīng)積累(并且在不斷學習)足夠的可靠的知識,而且能在理解問題的基礎(chǔ)上給于回答。搜索引擎自己足夠正確和自信,不再 需要Page Rank為它的回答進行背書。于是,到了2009年底,Google宣布取消Page Rank機制。這個宣告在當時引起了酣然大波,畢竟多少年來站長們的奮斗目標就是頁面上的PR數(shù)字,而這個目標卻在一瞬間成了浮云。當時也有很多揣測,主 流的說法Google是為了防范針對PR的作弊機制才采取這一舉動。然而,“防范”這種被動而無奈的行為并不符合Google的風格。真正的原因是,它有 了更好的辦法。
就像我們每個人從一無所知的新生兒開始,逐漸成長為在復雜的現(xiàn)實中順利生存的個體,我們每個人都是一個學習和反應的機制。我 們從零開始,學習和儲存了各種知識和常識,并在這些知識和常識的基礎(chǔ)上形成了直覺和經(jīng)驗。然后,當我們遇到現(xiàn)實問題的時候,我們在自己的儲備中調(diào)出最適合 應對的那個部分。
今天的Google正在做類似的事情。作為這個星球上最幸運的學生,有無數(shù)老師不斷向它輸送知識并且每時每刻幫它糾錯。它也很好的回報了這個世界,它為世界上無數(shù)用戶提供答案,正如同學習成績優(yōu)秀的學生經(jīng)常幫助其他同學答疑解難。
在 電影《阿凡達》中,潘多拉星球是一個“活”的星球,這顆星球上的神樹是星球的精神網(wǎng)絡與現(xiàn)實連接的節(jié)點,通過這些節(jié)點為潘多拉的子民們提供幫助,同時也接 受子民的擁戴和供養(yǎng)。今天,當萬維網(wǎng)聯(lián)系了人類群體的意識和思維,我們的星球也在成為潘多拉。我們有avatar,我們也有神樹——目前,神樹之名為 Google。
via 36氪
總結(jié)
以上是生活随笔為你收集整理的好文分享:Google的潘多拉星球的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Benchmarking Detecti
- 下一篇: python转cpython_cpyth