GMIS 2017大会戴文渊演讲:构建AI商业大脑
GMIS 2017大會戴文淵演講:構建AI商業大腦
2017-05-27 14:05:58 ???深度學習??? 0?0?0全球機器智能峰會(GMIS 2017),是全球人工智能產業信息服務平臺機器之心舉辦的首屆大會,邀請了來自美國、歐洲、加拿大及國內的眾多頂級專家參會演講。本次大會共計 47 位嘉賓、5 個 Session、32 場演講、4 場圓桌論壇、1 場人機大戰,兼顧學界與產業、科技巨頭與創業公司,以專業化、全球化的視角為人工智能從業者和愛好者奉上一場機器智能盛宴。
5 月 27 日,機器之心主辦的為期兩天的全球機器智能峰會(GMIS 2017)在北京 898 創新空間順利開幕。中國科學院自動化研究所復雜系統管理與控制國家重點實驗室主任王飛躍為本次大會做了開幕式致辭,他表示:「我個人的看法是再過幾年,我們 90% 的工作是人工智能提供的,就像我們今天大部分工作是機器提供的一樣。我們知道人工智能會給我們提供一個更美好的未來。」大會第一天重要嘉賓「LSTM 之父」Jürgen Schmidhuber、Citadel 首席人工智能官鄧力、騰訊 AI Lab 副主任俞棟、英特爾 AIPG 數據科學部主任 Yinyin Liu、GE Transportation Digital Solutions CTO Wesly Mukai 等知名人工智能專家參與峰會,并在主題演講、圓桌論壇等互動形式下,從科學家、企業家、技術專家的視角,解讀人工智能的未來發展。
上午,第四范式創始人戴文淵發表了主題為《構建 AI 商業大腦》的演講,他探討分享了如何使機器學習的過程變得更簡單,如何使企業在降低成本的同時,擁有 AI 的能力。以下是該演講的主要內容:
如今,一些大型企業已經獲得 AI 能力,甚至已經享受 AI 帶來的紅利,但更多的企業在思考:他們如何擁有 AI 的能力。而這么多紛繁復雜的信息,有那么多算法,技術,我應該如何選擇?今天我將會在這方面進行分享。
生物智能我們相對容易理解,我們評判一個生物智能的高低,是看它的腦細胞有多少,比如人的腦細胞比狗要多,大家會覺得人比狗聰明,而狗的腦細胞比昆蟲多,大家會覺得狗比昆蟲聰明。
機器是怎么回事呢?統計學家早就給我們奠定了機器的理論,叫 VC 維理論,為什么叫 VC 維?因為這兩個科學家一個姓 V,一個是姓 C,取他們的首字母,就叫 VC 維。
VC 維理論的結論是這樣:一個模型的維度越高,能力就越強,我們甚至發現,VC 維可以用來解釋生物智能,比如,人的大腦 VC 維大概等于腦細胞的個數,在 VC 維理論下,我們可以把人的智能和機器的智能進行對比,最后達到比較的方式。
?在這種情況下,我們發現人和機器可以類比。人最高的智慧在哪兒?在于我們對社會、對自然界經驗的提煉,比方牛頓三大定律。如果讓機器做牛頓的工作,應該如何做?機器可以去記錄大量物理學的自然現象的數據,讓機器去讀數據,按照不同的速度區間總結不同的規律,甚至總結出可能三千萬,乃至更多的定律。如此一來,我們可能并不需要牛頓。
如今,業務專家在設計營銷、金融、風控,醫療各個領域的業務規律。但在各行各業,機器都有可能超越人。我 2009 年加入百度,百度的廣告是一個利潤豐厚的業務,百度的廣告不是 AI 做的,而由業務專家制定規則,他們制定了將近一萬條規則。我們基于百度的數據,當年寫出一千萬條規則,比業務專家多出了將近一千倍,當年提升了 40%。后來我們逐漸加碼,2013 年把整個規則數寫到了一千億條以上。2009 年-2013 年,百度的廣告利潤提升了八倍。
我們把這個方法論應用到不同的行業,包括金融的實時反欺詐。過去,比較好的反欺詐系統也能寫出一千多條規則,我們能夠很輕易的基于目前的交易以及投訴的數據能夠寫到 25 億條以上。再比如個性化的內容分發,過去,編輯最多寫幾十、上百條的規則,用機器人則能寫出十億條以上的規則。
機器比人有更強的精力,能寫出更細的規則,因而它能做得更好更精細。如果你能用機器基于數據寫出超過一千萬條規則,VC 維超過一千萬,人基本上沒有辦法跟機器抗衡了。這就是機器為什么能在各個領域打敗人的原因。
但機器超越人,有一定前提條件,這是因為做出好的 AI Model 有前提條件。我們總結五個要素,它們分別是大數據、外部的反饋、算法的能力、計算的能力、商業需求的帶動。
第一,大數據。并不是有數據就行,而是有意義的大數據,比如過程數據。舉個例子,我們學習圍棋,去看圍棋手的等級和排名、圍棋賽事的報道,是學不會的。只有把別人下的棋一盤一盤看完,才能夠每日精進。那么,我們如何去搜集這種過程數據呢?通常我們會對客戶提供一個服務,這個服務可能收到正反饋,也可能收到負反饋,我們把這個過程收集下來。具體來說,對于在線廣告,我們有一個搜索,搜索以后給他推出廣告,用戶點擊是正反饋,沒有點擊則是負反饋;對于個性化推薦、訪問,我們提供推薦,用戶接受是正反饋,不接受是負反饋。對于反欺詐,我們提供授權,用戶投訴,是正反饋,沒有投訴,說明授權是對的,是負反饋。最后我們要做好的 AI 模型,而這通常需要一千萬以上的過程數據。一千萬以上,我們就有機會制作比資深的業務專家更好的模型。這不僅是有經驗的支撐,也有理論的支撐。通俗地講,一個模型的規則數,模型的 VC 維,要和數據量匹配,要做到一千萬以上的維度才能夠打敗人,這就需要一千萬以上的樣本,一千萬以上的過程數據。
?第二,反饋,反饋非常重要。例如搜索的點擊,推薦的接受,反欺詐的投訴,這樣的反饋對優化模型是非常重要的。在推薦領域,今日頭條、快手這些風頭正健的應用,和上一代推薦系統最大的不同是什么?
過去的推薦,是推薦相關內容,強調推薦結果的相關性,但機器不知道什么是相關與不相關。現在,我們把相關數字化了,不再強調一定要解決相關性,而是解決點擊率、閱讀的時長、轉發、收藏、投訴,這些能被數字度量,機器能理解,不斷去優化。優化的過程,需要建立一個持續不斷的數字化的閉環的反饋,因為世界變化太快,如果不能持續不斷地反饋,很快就會落伍。
第三,算法。最直接的辦法是雇傭厲害的算法科學家,但這是非常稀缺的人才。
早期我們在 BAT 做 AI 應用,我們需要搭建上百人以上 AI 的科學家團隊,因為有太多事情要做,機器學習、算法,幾十項,甚至更多。但科學家太稀缺了,因此科學家必須把這些能力封裝在平臺內。我們希望一個業務人員,再加上有一定數據思維基礎,經過平臺培養一兩個月的數據工程師,就能達到過去算法科學家的效果。
因此,我們需要做很多工作,比如,需要做支持萬億級別特征量的機器模型的學習,但現在主流的深度學習模型是萬級別左右的輸入,對于多媒體來說,這不是太大問題。因為他們我們面對的是圖像,只要考慮像素內的問題。但對于企業經營,我們遇到幾百張,上千張表的時候,如果只能支持萬級別的變量,首先就會丟數據。我們從 2013 年開始,不斷設計更寬的模型。我們 2013 年設計出的模型,Google 在去年也發表了類似的論文。現在我們也在發展更好的算法,比如,Deep Sparse Model。
第四,降門檻,機器學習很大的門檻,在于要做數據清洗,特征變換,歸一化,特征組合,離散化這些特征工程,這對科學家來說是基本功,但對 App 的開發人員來說,門檻太高。因此需要使這些事情自動化,所以我們在用不一樣的方法,比如線性分型的算法,用分型技術讓線性的模型做更好的特征工程。用 TreeNet 算法,數和網絡結合的算法,讓我們更自動地去做特征工程,希望把門檻降低。
我們內部找公司內的普通員工做測試,比如行政、HR,財務、銷售等,讓他們用我們新的不需要做特征工程的算法,去解決我們客戶的問題。發現他們能接受這樣的機器學習,因為這是把數據放到算法里跑一跑,出來一個模型,上線去應用,很多都能理解。但他們不能理解,特征變換、離散化、特征組合是什么。他們只要不做這些,他們就能做機器學習。
?測試結果發現,70% 的普通員工都能達到我們公司的算法科學家,用開源工具做出來的效果。這是很大的進步,因為為整個領域增加了大量的 AI 開發者。
第五,Inferential,因為 AI 不是簡單問題。在 PB 級大數據情況下,如果超過 20 臺機器,不在一個機柜,任意兩臺機器不能假設他們的傳輸速度是一樣的;如果超過 100 臺機器,不能假設跑完所有程序的時候,你的機器每次跑代碼的時候,都會宕機,超過一千臺機器,甚至任務分配都會非常不均衡,有的機器是空閑的,有的機器會很忙,這些都是需要解決的。
我們也在設計為機器學習設計的算法框架,原來我們認為,分布式框架已經很成熟,但對機器學習來說,分布式框架的差距是很大的。雖然數據量的增加,是平方級性能的開銷,但我們一定要降到隨著數據量的增加,線性的開銷。
最后,我們把它們封裝到一個平臺,讓機器學習變得簡單。
現在,我們做不到通用人工智能,我們所有的人工智能只能是解決單一領域的事情,需要有單一的,清晰的目標,有邊界的目標。而通用人工智能是在有邊界的人工智能應用數量極大豐富時,才會做到的。我們現在要解決的所有問題,是解決一個又一個有邊界的單一目標的人工智能的問題。
概括來說,構建商業 AI 的能力,對于將 AI 用來提升業績的商業公司來說,最重要的就是 VC 維。企業要不斷努力,提升企業模型的 VC 維,VC 維越大,企業的競爭力就會越強,AI 的能力就會越強。
支撐企業的 VC 維幾大要素是:前提條件,就是大數據外部反饋,算法,計算資源和需求。我們把首字母拼起來,正好就是 BRAIN,很有意思。過去,我們構建 AI 的 BRAIN,需要做很多工作。當我們定義了商業的問題以后,我們需要從收集數據、標定、數據分組、評價標準、特征,進行模型訓練,再到最后形成解決方案,需要龐大的團隊,至少幾十人做大半年才能完成。今天,我們把整個過程變得簡單,中間都由平臺來解決,今天我們在做的先知平臺,希望幫助每一家企業更簡單地獲得 AI 的能力,不需要招聘大量的科學家和架構師。
總結
以上是生活随笔為你收集整理的GMIS 2017大会戴文渊演讲:构建AI商业大脑的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GMIS 2017 大会余凯演讲:深度学
- 下一篇: GMIS 2017大会Wesly Muk