出走的门徒之六—第四范式 戴文渊:先知登场
風口不會隨便眷顧一個人。因為歷史不會對默默“打怪升級”著墨,它只看結果。
?
在阿西莫夫的代表作《基地》中,除了先知謝頓貫穿全線,其他主角都是門徒。他們內在為直覺所驅動,外在被時代所推動。他們在歷史上的出場毫無征兆,卻在潮流中游刃有余。你會驚嘆,為什么是他?
離開谷歌、微軟、IBM、Facebook、阿里、百度,告別自己過去的所有榮耀,重新走上創業之路,崇尚技術的護城河。為什么是他?新華網開辟“出走的門徒”系列,講述這樣一群科技界理想主義者的現實路徑。
?
從五道口出發,大概地鐵十分鐘、或者走路一個半小時,就能到達地球中心“上地”。當你走過這里的街道就會發現,挖掘機在冬天揮著大爪子尋找青草的味道,麻辣燙和烤串的香味即使在白天也勾搭誘人。
在這里,吃和住解決了,這幫人就開始琢磨著改變世界。他們會一邊擼著串,一邊聊著怎么樣讓用戶每天對著冰箱說話,“10元錢+2小時”能不能同時解決產品封裝和一頓晚飯,以及你怎么判斷正在烤串的大爺是不是一個人工智能。到了夜晚,他們一邊看著凌晨2點的北京,一邊坐車到回血點——回龍觀完成新一輪的升級。
這里,聚集了目前中國技術最好的一批人,空氣中都漂浮著未來的味道。
戴文淵從最開始背靠香港,還是決定,在兩年前把公司搬到了上地。然后,目前能支持超大規模集群以及數據量的人工智能應用者開發平臺——“先知”,在這里降臨。
從拿到ACM競賽冠軍,到研究人工智能,再到織出百度鳳巢,登上華為諾亞方舟……戴文淵用近十年證明,“AI”是可以“for someone”的。未來十年,戴文淵的第四范式和“先知”平臺要證明的,是“AI”終將“for everyone”。
如果回頭看戴文淵的這十幾年就會發現,所謂先知,并不見得是可以某一次時,比別人先走三步;而是在趨勢開始前,永遠可以精準地先走半步。
預兆:用3歲孩子的思考模式跳出AI固有解決方法
沈南鵬在第一輪就投了第四范式。那是在2015年,當戴文淵把所有要干什么都說完之后,沈南鵬問,“你有什么問題想問我的?”戴文淵就問,你怎么看待我們做的這個事情。現在回憶起來,戴文淵依然記得當時沈南鵬說,“我其實不太關心你們做的是什么。在創業的初期階段,相較于具體的業務,我更關心你的團隊。”
紅杉投資看人。2年過去,說起這一幕,戴文淵說,如果現在再見到沈南鵬,“我很想告訴他,我還在做當時的那個事情”。
所謂“當時那個事情”,戴文淵是在2005年入坑的。彼時,他獲得了2005年ACM國際大學生程序設計競賽世界冠軍。這項由美國計算機協會(ACM)主辦、被稱為計算機界奧林匹克,一般描述是“入門之后基本拿獎靠智商,拿到銀牌就能成為offer收割機”。
那會,上海交通大學計算機系有一個實驗班,學生大三就可以按個人喜好選擇實驗室。戴文淵在外備賽,等結束時,像圖形學(即CG)等熱門方向都選完了,只剩下冷門的人工智能沒有人選。“那個年代,沒有人相信AI能做成。”戴文淵說。
在學術界,戴文淵多走了的半步,叫做遷移學習。
如今,在遷移學習領域,論文引用數排名第一的,是戴文淵的導師、香港科技大學計算機系教授楊強,華人界首位國際人工智能協會院士。而戴文淵,憑借10年前發表的一篇論文(Boosting for Transfer Learning),單篇論文引用排名世界第三。
但在當時那個年代,整個AI學界都是基于凸優化(機器學習中的最優化問題)做AI研究。參加學界會議,一半的人都在研究最優化,就和現在一半的人都在做深度學習一樣。
而且,即便是深入多年的學者,自己也不相信基于這條路,AI可以做出來。可以建出非常好的數學體系,卻沒有能力為它提供知識的內容。我國自動化領域的領軍者王飛躍教授曾說,“到2005年,人工智能領域在中國幾乎沒人了,全走了。”當時甚至有一個說法,做人工智能的全都是吹牛的。
走這樣一條學術的路徑,做出來的效果和一個3歲小孩的認知力相比,還差的很遠。那為什么不去學習3歲的小孩怎么思考?人是基于神經的學習,為什么AI不能用神經網絡做?楊強帶著戴文淵,在沒有太多經費支持的情況下,硬是把這個方向堅持了下來。
AlphaGo就是典型3歲孩子獲取知識的思路。“所基于的人工智能技術,強項不在于推演,而是借鑒過去見過的局面。所以,如果要擊敗AlphaGo,需要盡可能把局面導向歷史上沒人下過的棋。”在AlphaGo和李世石對弈第一局后,戴文淵在知乎上回答。他還不忘提醒,想要不敗,需要注意控制自己的心魔。
指引:用技術驗證對人工智能的堅定信仰
結局大家都知道了。在“虐”完李世石之后,AlphaGo橫掃了圍棋界,然后又在德州撲克中成為“賭神”。這時候大家一下子都懵了,原來“算法+大數據”可以讓人工智能這么猛。
這一點,在2008年戴文淵就認識到了。多年的積累和強大的判斷力,讓他意識到數據在AI這條路上的強大助力。用他自己的話說,“這時候一些大型互聯網公司,數據的累加對人工智能會做的貢獻,開始比在學術圈做算法的技巧,更有意義,會有最大的提升”。
對于趨勢的判斷,他有著不容反駁的自信。“我一直是做AI,十幾年了。對這個行業應該做什么事、處于什么狀態,有自己的判斷,我不會在十幾年前做這個事情,那時候技術還不足以支撐。”
必須要去一個數據量最大的公司,才有可能不斷測試自己的算法技能。然后他自己認為當時國內只有百度符合條件,直到2011年BAT才都可以做到。
在將AI產品化的階段,戴文淵多走的那半步,是更早認識到了數據的魔力,證明AI是可以“for someone”的。
他和當時還是實習生的陳雨強,共同搭建了一個商用的深度學習系統,也就是百度的“鳳巢”廣告系統。從接手這個系統時,戴文淵一直主張引入深度學習,這恐怕是國內歷史上第一次用超大規模的集群,跑一個PB級的數據量,為一個應用來建模。這和過去的建模相比,至少是大了四到五個數量級。用他自己的話說,“在一個AI的從業者來說,這是我第一次把我的想法在產業落地,創造出價值。”
后來“鳳巢”系統成功驗證,在超大規模數據中機器學習確實能給業務帶來正向效果,百度的變現能力也提升8倍,這讓戴文淵的團隊獲得了百萬美金的“百度最高獎”。
而離開百度的原因,是戴文淵有一天忽然發現,自己過得太舒服了。自從,他每天上午10點上班、下午6點下班,感覺自己的位子如果換成別人,業績也會很好,不會有任何改變。“有的時候老板叫我去研究一個東西的時候,我已經研究好了。”戴文淵說,那種躺在床上“混吃等死”的感受太不舒服了。
在華為也是一樣。剛到華為的時候,華為正在與國際巨頭爭奪自己在金融領域的話語權,“去銀行爭解決方案,那個階段的華為贏面并不大”有一次,在離給客戶承諾的時間還有2星期時,一個問題當時的工程師怎么都調試不出來,大家壓力都非常大。
那會戴文淵已經有3年沒有寫過代碼,他花了15分鐘把代碼寫完并解決了。對于幫華為在金融領域鑿開口子這一點,戴文淵頗為滿意。那一仗打得非常漂亮,華為最終競標成功。
降臨:用“先知”2周培訓出一個AI專家
然而,攻城略地的日子很快就沒了。等到快離開華為的時候,他似乎每天只需要工作1天,其他時候就是打卡。要是在知乎上回答問題,戴文淵最適合的大概有兩個,第一個是“在大公司最年輕的T10科學家位子上混吃等死是種什么樣的感受”,第二個是“喜歡安逸的金牛座如何跳出自己的舒適區”。
這個穿著格子襯衫、戴著黑框眼鏡、談吐娓娓溫和的年輕人,骨子里有著一開口就能感受到的“不安分”。
在百度做AI,和出來創辦第四范式做AI,完全不同。在百度,你是做戰斗機,因為利潤足夠高,花多少錢都無所謂。“當年在鳳巢時,一年在我們這個團隊就有幾百個人”。戴文淵覺得,自己的主線應該不是幫百度再多掙幾百億元。AI能不能幫一家企業去提升價值,這個問題是不需要再去論證的。
“我希望做AI的能量更大一些”。戴文淵說。在AI工業化階段,他正在試圖再多走半步,證明AI可以for Everyone。
2012年,還在百度的戴文淵和陳雨強一起做了一個嘗試,讓他一個人去重新做一次鳳巢。拿深度學習的新技術,一年半把整個鳳巢全部重新做一遍,將效益提升了4%。這也就意味著,才花了1.5人/年,就干了原來上千人月做的事情,通俗地說就是把機器學習的成本降了一千多倍。
2016年7月,第四范式發布了一款人工智能開發平臺“先知”,這是AI領域首個面向應用者的開發平臺。第四范式對先知設置了參數自動化的算法,并搭建了比Spark快數百倍的機器學習的基礎架構,它降低了人工參與的特征工程和模型訓練過程,還能提供自動或半自動的特征工程、模型選擇調參工具,降低了對數據科學家的依賴。
用戴文淵的話說,就是一個完全不懂技術的小白,大概經歷2周的時間,就可以成為一個AI專家。去年年底,戴文淵利用這個平臺在公司內部做了一個叫做“一顆賽艇”的競賽,這估計是全球首個非專業人士參加的人工智能建模大賽。這場特殊的比賽,對參賽選手唯一的身份要求 ,便是非“數據科學家”、非“建模工程師”;此前,縱然人工智能攻陷了圍棋、撲克領域,也沒有任何一個公司敢挑戰“讓普通人做出AlphaGo”這一難題。
在沒有經過任何專業培訓的情況下,這些銷售、市場、公關等非專業人士中,有超過70%的參賽組合AUC成績(AUC是衡量模型效果的專業指標,取值在0到1之間)跨過0.8大關。在實際業務中,凡是AUC高于0.8的模型就已經達到工業水準;而在整個行業中,只有極少數深耕機器學習多年、擁有豐富大規模數據處理經驗的數據“大神們”才能搭建出AUC0.8以上的模型。
“但先知這個平臺,在我的心中還沒有及格,路還很長。我們還有30%的人經過了培訓沒有做到”。戴文淵說,過去一段時間,公司把較多精力放在了機器學習的算法。“現在的門檻不是算法,是數據怎么樣能和平臺實現無縫對接。”
他滿腦子都在想,怎么樣通過降門檻、降成本,讓每個人都能用的起AI,讓每個公司都可以實現自己的AI策略。“我們總結出‘4+1’個先決條件:一是要有數據;二要有明確定義的業務目標;三是充足的計算資源;四是要有算法能力,當然也可以由第三方來提供。最后是一個plus,屬于沒有沒關系,但有了更好的,就是形成反饋閉環。譬如說你下了一局圍棋獲得的數據,能形成反饋進一步優化算法”。
“AI過去是只能服務一家,現在可以服務幾百家,以后可以服務每一家”。商業化階段,戴文淵用最堅定的信仰告訴大家,AI是真的可以“for everyone”的。
布道:用“不舒適”創造自己的舒適區
“不過,后來我也想明白一個事情。其實我們的大環境缺的并不是有理想有抱負的科學家,而是sponsor(發起人)。所以真正挑戰人類的其實是IBM,不是許峰雄;是Google,不是DeepMind團隊。就像,真正修成圣彼得大教堂的,是天主教會,而不是米開朗基羅。這也是為什么,我覺得還是要做一個公司,用商業的成功帶動科技的成功”。
這種用天衣無縫的邏輯,論證直覺準確性的思維模式,實在是戴文淵最具魅力的地方,更是值得不少創業者深思的。即使他說的是一個故事,這難以讓人反駁的強大論證能力、縝密邏輯能力、快速執行能力,也讓你甘心把酒奉上。
在沒有當CEO的時候,戴文淵認為自己“并不關心別的同事在做什么”,除非“他做的事和我的技術目標有關聯”。但現在,這種縱向思考的模式正在逐漸改變。
他開始把與國際前沿技術的對接,放心地交給楊強教授這個公司的精神領袖;把人工智能在工業應用上的優化與研究,交給人工智能行業大牛陳雨強;把產品化交給另一位聯合創始人胡時偉。
他依舊追求技術細節,但是更多時間會放在把控公司大方向上;去把所有技術的成果,去和產品、商業市場做對接,做技術和市場商務之間的橋梁;同時,他開始去管理那么多門檻不同、優勢不一,甚至在除了技術之外的其他很多方面比他強的人。
“技術只有0和1的區別,沒有0.1。但現在我要把自己變成一個沒有0和1的人,才能把整個團隊聯接好。”戴文淵回憶起當年以隊長之職準備ACM競賽時,對每個隊友的選擇都用最高的標準,容不得一顆沙子。而到了工業界,這種管理的模式行不通了。
做技術出身的人,常常會追求安逸,覺得一個有網絡的世界就夠了,覺得自己可以寫一輩子的代碼;而現在面對市場,卻發現市場是一直在變的,是最沒有穩定和“一招鮮”的。
戴文淵覺得自己永遠都沒有安全感,卻在不停的改變中發現,市場怎么變,自己都不會死。這種永遠不在舒適區的狀態,反而給了自己莫大的安全感。真的不知道有多少創業者,會對此有共鳴。
直至目前,非BAT的公司,即使是非常不錯的企業,都仍然很難找到靠譜的人完成AI團隊的自建,成本、人才都是門檻,技術團隊的人太貴了。“絕大多數企業都希望有這一條路,但這一條路在目前是走不通的。一定得是平臺,得是降門檻,才能讓更多人參與,讓十來萬個人來一起玩,才能遍地開花。”戴文淵說。在這一點上,他兩次用“要相信”來強調自己的立場。
的確,我們或許不會記得PC是誰發明的,但我們會記住PC是喬布斯帶給世人的。在智能時代的浪潮之巔,也許我們不會記得誰發明了深度學習,但我們每個人都記住了AlphaGo。戴文淵,這個把人工智能的火種燎原到各行各業的人。
20年后,新時代再見。
?
轉載于:https://my.oschina.net/ZZKAJ23/blog/884941
總結
以上是生活随笔為你收集整理的出走的门徒之六—第四范式 戴文渊:先知登场的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JErasure库相关介绍
- 下一篇: python随机森林变量重要性_推荐 :