AlphaZero:一种人类从未见过的智慧
從AlphaGo Zero的“雙手互搏”理解人工智能
重點提示:
1.什么是AlphaZero的洞察力? 2.人類智能和機器智能是否都是來自概率統計?神經網絡算法其實是一種概率算法,而我們所依賴的整個世界也是建立在微觀粒子的隨機性之上(近代量子理論);或許所謂智能,其實就是一種建立在隨機原理之上的數學運算,從這個意義上進一步思考,不難得出機器智能必將超越人類智能的結論!
一、人工智能的誕生
1.從“圖靈測試”說起
人工智能(Artificial Intelligence,即AI)是當今推動人類進步的重大技術,世界各主要大國都已將其作為國家戰略予以高度重視。人工智能的研究,最早始于1950年艾倫.圖靈(Alan Turing)發表的論文《計算機器與智能》(Computing Machinery and Intelligence);因此,艾倫.圖靈也被視為人工智能之父。
在這篇論文中,圖靈正式提出了“機器能思考嗎?”這一問題,并給出了肯定的答案。同時,圖靈還描述了人工智能研究的目的,給出了人工智能發展的方向,并預言了真正具有思維能力的機器的出現,被廣泛視為人工智能理論的開山之作。
圖靈的貢獻主要在于,堅定地確認了人工智能成功的可能性,并確定了一個判斷人工智能是否成功的標準,即著名的“圖靈測試”。
圖靈測試的方法很簡單,就是讓測試者與被測試者(一個人和一臺機器)隔開,通過一些裝置(如鍵盤)向被測試者隨意提問。進行多次測試后,如果有超過30%的測試者不能確定出被測試者是人還是機器,那么這臺機器就通過了測試,并被認為具有人工智能。這個測試也叫“模仿游戲“。
一場正常的模仿游戲有ABC三人參與,A是男性,B是女性。兩人坐在房間里;C是房間外的裁判,他的任務是要推斷出這兩人誰是男性誰是女性。(見上圖)
可是男方是帶著任務來的:他要欺騙裁判,讓裁判做出錯誤的推斷。
到了1952年,在一場BBC廣播中,圖靈談到了一個新的詳細想法。
圖靈問:“假設一臺機器代替了這個游戲里的男方的地位。會發生什么?”這臺機器騙過審問者的概率會比人類男女參加時更高嗎?這個問題代替了我們原本的問題:‘機器是否能思考?’”而這,也是圖靈測試的本意。
讓計算機來冒充人。假設足夠多的裁判(圖靈選擇的數字是30%),誤以為在和自己說話的是人而非計算機,那就算作成功了。
事實上,你可能已經注意到了圖靈的真正目的。不是說“思考”沒法定義嗎?沒關系,我們不去糾纏哲學,我們來制造一個可操作的標準。假設這臺機器“表現得”和一個思考的人類(人類是會思考的,對吧?)無法區分,那么我們就大可把它當做是在“思考”。
能夠看到,圖靈測試(模仿游戲)的核心,事實上不是“計算機是否能和人對話”,而是“計算機是否能在智力行為上表現得和人無法區分”。
而棋類游戲的人機大戰,恰巧就是這一思想的最好例證。
2.電影大片《模仿游戲》(圖靈傳記)
(參考“百度百科”)
關于艾倫.圖靈的故事,推薦觀看傳記電影《模仿游戲》(The Imitation Game;又名模擬游戲或解碼游戲)。該片生動客觀地再現了艾倫.圖靈在二戰中協助盟軍破譯德國密碼系統“英格瑪”,從而扭轉二戰戰局的真實經歷;英國首相丘吉爾曾表示二戰取得勝利最應該感謝的人就是圖靈。
圖靈(1912-1954)的一生是傳奇,也是悲劇。圖靈領導的破譯小組因成功破譯德軍的“英格瑪”(當時世界上最難的密碼),對二戰的勝利作出了重大貢獻;但作為世界一流的科學家和二戰英雄的圖靈,隨后卻遭到了非人的迫害,以至于最終精神崩潰而自殺(年僅41歲);當圖靈在家中倒地死去后,人們發現在他旁邊的桌子上有一個被咬了一口的蘋果(像蘋果公司的徽標一樣),而這個蘋果已被注入了劇毒的氰化物。
二、AlphaZero簡介
AlphaZero(阿爾法零)是一個令人大開眼界且超乎尋常的強化學習算法,它以絕對的優勢戰勝了多名圍棋以及國際象棋冠軍。這個程序是由美國Google(谷歌公司)旗下的DeepMind子公司所屬的AlphaGo團隊開發。(見下圖)
AlphaZero最關鍵也是最令人詫異的一點,就是其能夠在不依賴于外部先驗知識的情況下,在棋盤類游戲中獲得超越人類的表現。AlphaZero通過自我博弈汲取經驗知識來不斷精通游戲。AlphaZero是最新的精簡升級版(不再局限于國際象棋和圍棋),它的上一個版本是AlphaGo Zero,下面是AlphaGo的族譜。
1.AlphaGo族譜:
DeepMind版本 ------時間 --------戰勝 --------等級分
AlphaGo Fan --------2015-10 ----樊麾 --------3100+
AlphaGo Lee --------2016-03 ----李世石 -----3600+
AlphaGo Master ----2017-01 ----頂尖s -------5000-
AlphaGo Ke ----------2017-05 ----柯潔 --------5000-
AlphaGo Zero --------2017-10 ----自我 --------5000+
AlphaZero -------------2017-12 ----自我 --------5000+
2.Alpha家族成長之路
Alpha家族系列出自DeepMind公司,這家公司是2010年由杰米斯·哈薩比斯,謝恩·列格和穆斯塔法·蘇萊曼創立的。在2014年,DeepMind榮獲了劍橋大學計算機實驗室的“年度公司”獎項。2014年1月26日,Google宣布收購DeepMind科技,收購的價格大概為4億美元。
顯然,DeepMind真正被全球熟知是在第一次人機大戰之后,從2016年的那場對弈之后,DeepMind旗下的圍棋AI就開始了超神之路。
2016年1月27日,AlphaGo在沒有任何讓子的情況下,以5:0完勝歐洲圍棋冠軍、職業二段選手樊麾。在圍棋人工智能領域,實現了一次史無前例的突破。計算機程序能在不讓子的情況下,在完整的圍棋競技中擊敗專業選手,這是第一次。
2016年3月,阿爾法圍棋與圍棋世界冠軍、職業九段棋手李世石進行圍棋人機大戰,以4比1的總比分獲勝,舉世嘩然,人工智能概念開始被大眾熟知。
2016年末2017年初,該程序在中國棋類網站上以“大師”(Master)為注冊賬號與中日韓數十位圍棋高手進行快棋對決,連續60局無一敗績;(下圖)
2017年5月,在中國烏鎮圍棋峰會上,阿爾法圍棋以3比0的總比分戰勝排名世界第一的世界圍棋冠軍柯潔(下圖)。
在這次圍棋峰會期間的2017年5月26日,阿爾法圍棋還戰勝了由陳耀燁、唐韋星、周睿羊、時越、羋昱廷五位世界冠軍組成的圍棋團隊。在柯潔與阿爾法圍棋的人機大戰之后,阿爾法圍棋團隊宣布阿爾法圍棋將不再參加圍棋比賽。
2017年10月18日,DeepMind團隊公布了最強版AlphaGo ,代號AlphaGo Zero。它的獨門秘籍是“自學成才”。而且,是從一張白紙開始,零基礎學習,在短短3天內,成為頂級高手。經過短短3天的自我訓練,AlphaGo Zero就強勢打敗了此前戰勝李世石的舊版AlphaGo,戰績是100:0。
2017年12月5日,AlphaGo Zero迎來升級,這個被稱為AlphaZero的程序在三天內自學了三種不同的棋類游戲,包括國際象棋、圍棋和日本的將棋,無需人工干預。在AlphaZero之外,DeepMind在醫療領域還打造了一個名為AlphaFold的AI系統,它能夠應對當今生物學中最大的挑戰之一:模擬蛋白質的形狀。
2018年12月,AlphaGo Zero登上《科學》雜志封面,完整論文首次公開。
三、解讀AlphaZero:
1.一種人類從未見過的智慧
(參考“電子發燒友”,并糾正了一些文字錯誤,原文將《科學》誤寫為《自然》)
在圍棋上打敗天下無敵手之后,DeepMind旗下的Alpha家族開始深入探究所有棋類,其中就包括國際象棋、日本將棋。
2018年12月初,在AlphaZero誕生一周年之際,《科學》雜志以封面文發布了AlphaZero經過同行審議的完整論文,Deepmind創始人兼CEO哈薩比斯親自執筆了這一論文。
AlphaGo Zero發布于2017年10月,AlphaZero發布于2017年12月,是前者的精簡升級版;而AlphaGo Zero真正受到重視是在2018年12月初發布在《科學》雜志上的論文之后。論文顯示,AlphaGo Zero在三天內自學了三種不同的棋類游戲,包括國際象棋、圍棋和日本將棋,而且無需人工干預。這一成果震驚了國際象棋界,幾個小時內,AlphaGo Zero就成為了世界上最好的棋類玩家。
眾所周知,在國際象棋方面,IBM的深藍在20年前就打敗了國際象棋大師,而后續的Stockfish和Komodo這些國際象棋程序也早已獨霸國際象棋世界。在AlphaGo Zero發布之后,很多人質疑了其在國際象棋領域的價值。而本次的完整論文,對一些人認為機器算法下國際象棋沒有價值的論調提出了幾個措辭頗為嚴厲的批評。這是因為,在過去的12個月里,AlphaZero清楚展示了人類從未見過的一種智慧。
2.深藍、Stockfish和Komodo雖然能贏人類,但不能真正理解棋局
在過去的二十年里,用機器算法下國際象棋已經取得了很大進步。1997年,IBM公司的國際象棋程序“深藍”(Deep Blue)在一場六局的比賽中擊敗了當時的人類世界冠軍卡斯帕羅夫(Garry Kasparov)。現在看來,這一成就并不神秘。深藍每秒可以計算2億個位置。它從不疲倦,從不在計算中出錯,也從不會忘記片刻之前的想法。(下圖為“深藍”大戰卡斯帕羅夫)
無論結果是好是壞,“深藍”都像一臺真正的機器,粗暴而物質化。它的計算能力遠超過卡斯帕羅夫,但卻無法真正從思維上超越他。在第一局的比賽中,深藍貪婪地接受了卡斯帕羅夫用車換一名主教的犧牲,卻在16步之后輸了比賽。現在,諸如Stockfish和Komodo等當前世界上最強的國際象棋程序仍然在以這種方式下棋。它們喜歡吃掉對手的棋子;它們防守像鋼鐵一樣強悍。但是,盡管這些國際象棋程序要比任何人類棋手強大得多,但并沒有真正理解棋局本身的意義。
經過幾十年的發展,人類大師關于棋類游戲的經驗都被作為復雜的評估工具編進程序中,表明在下棋中該尋求什么樣的有利位置以及避免陷入什么樣的不利境地。比如,王的安全性,棋子的活動、兵形、中心控制,以及如何平衡利弊。但以往很多國際象棋程序卻天生無視這些原則,給人留下的印象是野蠻粗暴的,這些程序速度快得驚人,但卻完全缺乏洞察力。
3.AlphaGo Zero不僅打敗了人類和所有程序,還擁有洞察力
所有這些都隨著機器學習的興起而改變。AlphaZero通過與自己對弈并根據經驗更新神經網絡,從而發現了國際象棋的原理,并迅速成為史上最好的棋手。它不僅能夠輕而易舉地擊敗所有最強大的人類棋手,還能擊敗當時的計算機國際象棋世界冠軍Stockfish(計算機+程序)。
在與Stockfish進行的100場比賽中,AlphaZero取得28勝72平的好成績。它沒有輸掉一場比賽。
最令人不可思議的是,AlphaZero似乎表達出一種天然的洞察力。它具備浪漫而富有攻擊性的風格,以一種直觀而優美的方式發揮著電腦所沒有的作用。它會玩花招,冒險。在其中幾局中,它使Stockfish癱瘓并玩弄它。當AlphaZero在第10局進行進攻時,它把自己的皇后佯退到棋盤的角落里,遠離Stockfish的國王。通常來說,這并不是攻擊皇后應該被放置的地方。
然而,這種奇怪的撤退行為充滿了惡意,不管Stockfish如何應對,它都注定要失敗。經過數十億次殘酷的計算后,AlphaZero幾乎是在等待;Stockfish意識到,自己的處境是多么無望,就像一頭被擊敗的公牛面對斗牛士一樣平靜落敗。大師們從未見過這樣的機器。AlphaZero擁有精湛的技藝,同時也擁有機器的力量。這是人類第一次瞥見一種令人敬畏的新型智能。
很明顯,AlphaZero獲勝靠的是更聰明的思維,而不是更快的思維。它每秒只計算6萬個位置,而Stockfish會計算6千萬個。它更明智,知道該思考什么,該忽略什么。卡斯帕羅夫在《科學》雜志文章附帶的一篇評論中寫道,AlphaZero通過自主發現國際象棋的原理,開發出一種“反映游戲真相”的玩法,而不是“程序員式的優先級和偏見”。
4.除了棋類,AlphaZero還能做什么?
現在的問題是,機器學習能否幫助人類發現所關心問題的真相?比如像癌癥和意識、免疫系統之謎、基因組之謎等科學和醫學尚未解決的重大問題。
早期跡象令人鼓舞。去年8月份,《自然醫學》上的兩篇文章探討了機器學習如何應用于醫學診斷。在一項研究中,DeepMind研究人員與倫敦莫爾菲爾德眼科醫院(Moorfields Eye Hospital)的臨床醫生合作,開發出一種深度學習算法,可以準確地對各種視網膜病變進行分類。
另一篇文章也涉及一種機器學習算法,其能夠確定急診室病人的CT掃描是否顯現出中風、顱內出血或其他重要神經疾病的跡象。對于中風患者來說,每一分鐘都很重要;治療耽誤的時間越長,結果就越糟。新算法的準確性堪比人類專家,而且比人類專家快150倍。一個更快的診斷有助于醫生對最緊急病例進行快速分類,并由人類放射科醫生進行復查。
然而令人沮喪的是,機器學習算法還無法清晰表達它們的想法。我們不知道它們如何得出結論,所以也就無從確定能否信任機器。AlphaZero似乎已經發現了一些有關國際象棋的重要原則,但它無法與我們分享這種洞察力。作為人類,我們想要的不僅僅是答案,我們想要的是洞察力。從現在起,這將成為我們與電腦互動交流的開始。
事實上,這一情況在數學領域中早有耳聞。四色映射定理就是這樣一個長期存在的數學問題。該定理指出在一定的合理約束條件下,有關相鄰國家的任何地圖都可以只使用四種顏色進行著色,這樣相鄰兩個國家的顏色就不會相同。
雖然人們最終在計算機幫助下于1977年證明了四色映射定理,但是沒有人能夠檢驗論證中的所有步驟。從那以后,這個定理的證明得到了驗證和簡化,但仍有一些部分需要進行蠻力計算。這種發展使許多數學家感到惱火。他們不需要確認四色定理是正確的,但他們想知道為什么這是真的,但是證明沒有幫助。
5.暢想未來:通用算法何時到來?
但是設想有一天,也許就在不久的將來,AlphaZero已經發展成為一種更通用的解決問題算法,其將擁有至高無上的洞察力,它能夠拿出漂亮的證據,就像AlphaZero與Stockfish對弈時一樣優雅,而且每一個證明都會揭示為什么定理是正確的。
對于人類數學家和科學家來說,這一天將標志著一個新時代的到來。機器的速度越來越快,相比之下人類神經元卻以毫秒級的速度緩慢運轉,我們再也跟不上機器的理解速度,人類洞察力的黎明可能很快就會變成黃昏。
無論是基因調控或癌癥,還是免疫系統的編排,抑或是亞原子粒子的運動,其中或許還存在有待于發現的更深層模式。假設這些模式需要超越人類的更高智能來預測,而AlphaZero的繼任者又能夠識別并理解它們,那么在我們人類看來算法就像是一個神諭。
或許未來,我們不再明白為什么計算機的結論總是正確的,但我們可以通過實驗和觀察來檢驗它的計算和預測。科學將把我們的角色降低到旁觀者的角色,在驚奇和困惑中目瞪口呆。
也許最終我們不再糾結于人類自身關于洞察力的匱乏。畢竟機器算法將能夠治愈我們所有的疾病,解決我們所有的科學問題,并讓我們所有的一切順利前行。在我們作為智人存在的最初30萬年時間里,我們在沒有多少洞察力的情況下一樣生存得相當好。我們將自豪地回憶起人類洞察力的黃金時代,這段幾千年的輝煌插曲就發生在我們不理解的過去和我們不可思議的未來之間。
四、AlphaGo Zero的啟示
AlphaGo Zero既然只依靠自身"雙手互搏",而不需借鑒人類智能就能產生機器智能,猜想必然有其獨特之處。其自我對戰的棋譜是其智能(或叫經驗)的來源,但許多圍棋高手看了都直呼看不懂,韓國國家隊也開始在訓練中參考AlphaGo Zero的走法。如果我們從下棋或技術以外的角度去理解AI呢,能從中悟出點什么嗎?
1.人類智能和機器智能是否都是來自概率統計?
神經網絡算法其實是一種概率算法,而我們所依賴的整個世界也是建立在微觀粒子的隨機性之上;或許所謂智能,其實就是一種建立在隨機原理之上的數學運算,從這個意義上進一步思考,不難得出機器智能必將超越人類智能的結論!
但就AlphaZero來說,目前還主要是在棋類領域表現優秀,最終能否解決人類關心的重大問題實在不好說。
由于這個想法,我從網上找到了兩局GIF動圖棋譜,方便稍有圍棋基礎的讀者借鑒,可從中感受一下機器智能到底不同在哪里。
2.AlphaGo Zero自我對戰棋譜:
2017年10月19日凌晨,DeepMind公布的最新版AlphaGo Zero自我對戰棋譜,以下就是從中選取的兩局:執白/執黑各一局。
(動圖來自“棋牌新聞”)
第一局(AlphaGoZero執白)
AlphaGoZero執白VSAlphaGoZero(001-052):
AlphaGoZero執白VSAlphaGoZero(051-102):
AlphaGoZero執白VSAlphaGoZero(101-152):
AlphaGoZero執白VSAlphaGoZero(151-202):
AlphaGoZero執白VSAlphaGoZero(201-252):
AlphaGoZero執白VSAlphaGoZero(251-264):
AlphaGoZero執白VSAlphaGoZero(全譜):
AlphaGoZero執白中盤勝AlphaGoZero:
第二局(AlphaGoZero執黑)
AlphaGoZero執黑VSAlphaGoZero(001-052):
AlphaGoZero執黑VSAlphaGoZero(051-102):
AlphaGoZero執黑VSAlphaGoZero(101-152):
AlphaGoZero執黑VSAlphaGoZero(151-202):
AlphaGoZero執黑VSAlphaGoZero(201-252):
AlphaGoZero執黑VSAlphaGoZero(251-302):
AlphaGoZero執黑VSAlphaGoZero(301-352):
AlphaGoZero執黑VSAlphaGoZero(351-402):
AlphaGoZero執黑VSAlphaGoZero(401-452):
AlphaGoZero執黑VSAlphaGoZero(451-469):
AlphaGoZero執黑VSAlphaGoZero(全譜):
AlphaGoZero執黑中盤勝AlphaGoZero:
總結
以上是生活随笔為你收集整理的AlphaZero:一种人类从未见过的智慧的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 零样本分割系列论文(2)Open-Voc
- 下一篇: 实录 | 计算未来轻沙龙:人工智能前沿与