维基百科,20岁生日快乐
本文作者:林檎
1971 年的某一天,奧地利城市因斯布魯克郊外的田野上,躺著一名喝得酩酊大醉的中年男子。他就是著名的科幻作家 Douglas Adams。這一天,亞當斯帶著一本名為《歐洲漫游指南》的書。而當他躺在田野上仰望星空的時候,靈感來了:他暢想存在一本《銀河系漫游指南》(The Hitchhiker’s Guide to the Galaxy),它將是一本旅游指南和百科全書的混合體。真正的神奇之處在于,該書不聘請專家撰寫的,而是任何人都可以貢獻條目。
顯然,生活在 21 世紀的我們,已經看到這一設想的 “實物”,即維基百科。
時至今日,這本任何人都可以編輯的自由百科全書,正好走過了 20 歲。
一本業余百科全書的誕生
維基百科最初并不是要成為一個獨立的信息網站。它其實是另一個專家編寫百科項目 ——Nupedia—— 的 “副產品”。
21 世紀初,互聯網方興未艾,隨著 Web 的發展,許多人嘗試開發互聯網百科全書庫項目,讓百科全書式的信息從圖書館中 “走出來”。
圖片出處:Wiki
Nupedia 是這類嘗試之一。它由前金融交易員、互聯網創業者 Jimmy Wales,和哲學博士 Larry Sanger 在 2000 年共同創辦。
但這一整年,依賴專家創造內容的 Nupedia 文章撰寫非常緩慢。20001 年,兩人開始重新探索新的方式,以更開放,互補的項目補充 Nupedia。此時,他們接觸到了 “任何人都可以編輯的百科全書” 這個概念,基于 Wiki 技術的維基百科便由此而生。
維基百科的創始人 Jimmy Wales 和 Larry Sanger。來源:commons.wikimedia.org
到了 2001 年年末,維基百科擁有了用 18 種語言撰寫的 2 萬多篇文章,而且增長速度正在加快,證明它的模式比 Nupedia 更符合兩人的預期。
2003 年,威爾士成立了維基媒體基金會,專門來運作服務器和軟件及籌集所需資金。對網站內容的控制仍由名為 “維基人” 的圈子所掌握,他們發展出了復雜的工作流程和指南來生成和維護內容。
現在,維基百科上已經有超過 5500 萬篇文章,使用數百種語言,每篇文章都由志愿者撰寫,是人類有史以來規模最大、閱讀量最多的資料庫。網絡分析公司 Alexa Internet 將維基百科列為互聯網上第 13 個最受歡迎的網站,排在 Reddit、Netflix 和 Instagram 之前。
維基百科誕生基于這樣一個樸素的初衷 —— 普通人可以利用計算機和互聯網,作為解放、教育和啟蒙的工具。
但在很長一段時間內,這種打造一本業余百科全書的想法,被部分權威人士當作小笑料。
“少數人由衷地贊同維基百科。這讓我感到不解。” 美國圖書館協會的一位前主席曾在 2007 年寫道," 一個鼓勵使用維基百科的教授,相當于一個推薦穩定食用麥當勞式飲食的營養師。”
即使是有一些學術研究證實并強調了它可以用作為可靠信息來源,維基百科的認可度仍無法與 “大英百科全書” 這樣的老牌百科全書相比。畢竟,后者由學術專家付費撰寫。
2005 年,Nature 雜志甚至組建了一個專家小組,專門解決這個問題。這個小組從維基百科和大英百科全書的網站上共找了 42 篇科學文章進行檢測。結果維基百科的錯誤率為平均每篇 4 個,大英百科全書為 3 個。
理論上,維基百科無法平息這種質疑;可實踐中,它取得了毋庸置疑的勝利。
值多少錢?
除了普羅大眾日常使用維基百科作為權威信息源之一,這幾年,飽受假新聞、虛假信息和陰謀論之苦的社交平臺(比如 Facebook 和 Youtube),也逐漸推崇維基百科視為中立的、高可信度的信息源。
維基百科還贏得了官方機構的青睞。在流言肆虐的新冠疫情期間,世界衛生組織選擇與維基百科合作,通過該網站提供 covid-19 的信息。世衛組織認為,這種合作對其防止新冠病毒錯誤信息的傳播至關重要。
當商業公司和官方機構開始使用這個工具,要計算維基百科的價值和影響力究竟幾許,就更加困難了。
哈佛大學的經濟學家 Shane Greenstein 曾經如此表示:“維基百科是我愿稱之為 ’ 數字暗物質 ’ 的一個例子。” 他曾仔細研究過這個網站,并把它類比作育兒和家務:投入這類事務會產生巨大價值,不過這種價值難以用標準經濟工具所衡量。
也有人嘗試過量化維基百科所產生的的價值。2018 年的一項研究表示,美國網民每年在維基百科上投入的價值約為 150 美元,如果屬實,僅在美國,該網站每年的價值就高達 420 億美元左右。
隨著數據智能、AI 技術的崛起,維基百科還產生出了一種更間接的經濟效益 —— 作為大量機器學習數據集的原始文本,“喂” 給各種各樣的自然語言處理模型。
根據我們的不完全統計,大概是從 2015 年開始至今,以維基百科為原始語料的代表性數據集開始大量涌現:先是 EMNLP 2015 年發布的 WikiQA,再到 2016 年 SQuAD 1.1 的大獲成功,越來越多的數據集開發團隊用維基百科開發數據集。特別值得一提的是 SQuAD 數據集。它的出現成為了機器理解領域的一個重要的轉折點,直到今天,SQuAD(以及后續發布的 SQuAD 2.0)仍然是衡量機器閱讀理解模型的重要標準。
借助 Wiki 構建的數據集。圖片出處:數據實戰派
當然,這類數據集促進機器的閱讀理解能力,也相應 “吸收” 了一些失誤,包括失實信息以及偏見等等。
尤其被廣為詬病已久的,是維基百科作者的多樣性。有研究發現,在維基百科上撰寫內容的人,大部分是居住在北半球發達國家、擅長科技產品的男性白領。他們所撰寫的往往是自己感興趣的信息。這變相造成了一種 “幸存者偏差”:在維基百科中,關于《指環王》中角色的條目就有超過 150 條,而關于越南戰爭的內容卻少于 10 條。
因此,如何修正這類基于維基百科的數據集的偏差,正在成為 AI 倫理領域的一個重要方向。
走向何方?
亞馬遜和蘋果訓練 Alexa 和 Siri 根據維基百科回答事實問題;谷歌用它來填充 “fact boxes(事實框)”,應用到有關事實問題的搜索場景;說不定,你每天用的最多的語音助手,也是用基于維基百科的數據集所訓練出來的。
即便是這些商業公司以這種方式受益于它,維基百科也沒有做什么特殊處理。它依然沒有所謂的商業模式。這也是為何在一些人眼中,它是一個奇葩的、不可復制的存在。
當代科技媒體的版面,已處處充斥著科技巨頭為了追求規模及流量、燒掉了大量投資者的錢的故事。但維基百科與這一切相悖。
維基百科擁有如此流量,并沒有上演創始人的發家事跡而落入俗套之中。它沒有股東,也不賣廣告,所以,它的創始團隊中也沒有走出億萬富翁。有報道稱,吉米?威爾士個人身家只有 100 萬美元,與其他日進斗金的互聯網巨頭相距甚遠。
它是 20 世紀末互聯網的技術樂觀主義、草根專業主義的遺珠,收入來自慈善撥款和用戶的捐贈,稱它為 “用愛發電” 的奇跡并不為過。
如今,維基百科由屬于非營利組織的維基媒體基金會負責托管與資助,維基媒體基金會則主要依賴公眾或者企業的捐贈和補助金。過去幾年來,其中重要的捐助者包括有美國投資家華倫?巴菲特、前美國總統吉米?卡特、維珍集團首席執行官理查德?布蘭遜、Amazon.com 創辦人杰夫?貝佐斯、Craigslist 創辦人 Craig Newmark 等。
最近幾年,幾乎每過一次 “生日”,都會有疑問的聲音表示,這樣下去,維基百科還能活多久?比如說,如今各種信息平臺都表現出由人工轉向算法驅動的趨勢之時,維基百科仍在讓人而非算法來運營管理。這究竟會是好事還是壞事?
這種壓力不是沒有。維基媒體基金會的執行董事兼首席執行官Katherine Maher 曾言,如果不是維基百科早已存在,恐怕在今天這個碎片化、商業化的互聯網世界,它根本無法誕生。
但鑒于它已經存在,Katherine 看好它的生存前景。她認為,維基百科的存在迎合了這部分人性:“人們喜歡正確,并且熱愛證明自己的能力。”
而且,即使是錯誤也并非一無收獲。根據坎寧安定律 Cunningham’s Law,在互聯網上獲得正確答案的最好方法,就是發布錯誤的答案。
圖片出處:unsplash.com
References:
1、 https://rrchnm.org/essay/can-history-be-open-source-wikipedia-and-the-future-of-the-past/
2、https://www.cs.mcgill.ca/~rwest/wikispeedia/wpcd/wp/h/History_of_Wikipedia.htm
3、https://www.wired.com/story/wikipedia-online-encyclopedia-best-place-internet/
4、https://www.technologyreview.com/2013/10/22/175674/the-decline-of-wikipedia/
公眾號:數據實戰派
轉載請后臺聯系小編~
總結
以上是生活随笔為你收集整理的维基百科,20岁生日快乐的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: zoj3380 Patchouli's
- 下一篇: ArcGIS API for JavaS