UC伯克利博士尤洋回国创业,曾破ImageNet纪录!已获超千万融资
曾刷新ImageNet紀錄的尤洋,回國創業了!
尤洋,何許人也?
他是LAMB優化器的提出者,曾成功將預訓練一遍BERT的時間,從原本的三天三夜一舉縮短到一個多小時。
作為一個通用的神經網絡優化器,LAMB優化器無論是大批量還是小批量的網絡都可以使用,也無需在學習率之外調試超參數。
據英偉達官方GitHub顯示,LAMB比Adam優化器可以快出整整72倍。
微軟的DeepSpeed,用的也是LAMB方法。
而這是尤洋在谷歌實習時作為論文一作提出的。
現在,他已經在UC伯克利獲得了博士學位,帶著LAMB方法回國,創立了潞晨科技。
公司主營業務包括分布式軟件系統、大規模人工智能平臺以及企業級云計算解決方案。
base北京中關村,目前已經獲得由創新工場和真格基金合投的超千萬元種子輪融資。
要高效率,也要低能耗
作為高性能計算領域的優秀青年學者,尤洋回國將在這一領域繼續深耕。
事實上,高性能計算已經成為眼下前沿AI發展的必然選擇。
隨著AI模型的參數量越來越大,所需的算力也就越來越高,訓練一次模型的時間也就變得十分漫長。
為此,科技巨頭們紛紛部署了自己的集群和超算。
比如Google的TPU Pod,微軟為OpenAI打造的1萬GPU集群,英偉達的SuperPOD,以及特斯拉的Dojo計算機。
△谷歌數據中心
但是單純地堆硬件,并不能解決所有問題。
一方面,當硬件數量達到一定量后,堆機器無法帶來效率上的提升;
另一方面,中小企業往往沒有足夠的資金支持如此大規模的硬件部署。
因此,優化技術成為了絕佳選擇。
潞晨科技就是旨在打造一個高效率低耗能的分布式人工智能系統。
它可以幫助企業在最大化提升人工智能部署效率的同時,還能將部署成本最小化。
而且潞晨打造的系統是一個通用系統,對大部分超大模型都有效。
就目前的Transformer應用而言,該系統在同樣的硬件上相對業界最好的系統,可以提升2.32倍的效率。
而且隨著機器數量的增長,這套系統的優勢會越來越大。
考慮到現在的AI模型其實是往多維度發展的,尤洋在打造這套系統時還選擇了動態模型并行技術。
這不僅能夠適應現在模型的發展模式,還能極大提升計算效率。
那么,到底什么是AI模型的多維度發展呢?
比如,BERT是基于Transformer Encoder,GPT-3是基于Transformer Decoder,Switch Transformer和清華智源是基于混合專家系統。
同樣,超算系統、聯邦學習、跨云計算等硬件配置也會將系統復雜化。
這兩者之間的自適應配置,將對整個訓練系統的性能起著決定性影響。
為此,尤洋他們實現了2維網格參數劃分、3維立體參數劃分、以及2.5維通信最小化參數劃分,極大提升了計算效率。
同時,他們還進行了逐序列劃分數據,這可用于處理未來的大圖片、視頻、長文本、長時間醫療監控數據等方面的問題。
除了提升效率,尤洋他們還著重考慮了能耗問題。
事實上,能耗很可能會成為未來人工智能應用上的一個瓶頸。
根據Emma Strubell等人的研究,從紐約到舊金山每位旅客乘坐飛機產生二氧化碳排放量1,984 lbs。
然而,訓練一個2億參數的模型需要的能耗,就能達到626,155 lbs。
顯而易見,低能耗計算十分必要。
尤洋他們在研究中發現,在不改變硬件設置的情況下,能耗主要來自于數據移動。
數據移動包括集群內服務器之間的通訊、GPU與CPU之間的通訊、CPU與磁盤的通訊等等。
為此,他們還實現了一套基于通訊避免算法的系統??梢栽诓辉黾佑嬎懔康那闆r下有效減少數據移動量,從而減少能耗。
核心技術
據尤洋介紹,以上他們打造的通用系統,依舊離不開LAMB方法。
LAMB的全稱是Layer-wise Adaptive Moments optimizer for Batch training,和大家熟悉的SGD、Adam屬于同類,都是機器學習模型的優化器(optimizer)。
之前我們也提到,LAMB無論是大批量還是小批量的網絡都可以使用,也無需在學習率之外調試超參數。
靠著這一特點,此前尤洋等人將批大小由512擴展到了65536。
這也是第一次有研究用2000以上的超大批量來訓練BERT。
帶來的提升就是迭代次數會大大降低。
這讓BERT-Large模型原本需要1000000次迭代才能完成預訓練過程,有了LAMB加持用上大批量,只需要進行8599次迭代,這大幅縮短了預訓練時間。
此外,尤洋等人最近提出的在線演化調度程序ONES,也是這套通用系統調用的一部分。
它可以根據批大小自動管理每個job,從而將GPU的利用率最大化。還能通過演化算法,不斷優化調度決策。
評估結果表明,ONES與當前最先進的方法相比,在平均JCT(job completion time)上能夠縮短45.6%的時間,優于現有的深度學習調度算法。
據悉,尤洋團隊已經與多家企業展開合作。
他們表示,公司的戰略是“先造錘子,再找釘子”。創業初期希望打造一個通用系統,1年內完成系統優化,用于中小型企業。
清華學子歸國創業
說起尤洋,就不得不說一說他的“學霸史”了。
尤洋曾以第一名的成績保送清華計算機系碩士。
后來在申請博士時,他從UC伯克利、CMU、芝加哥大學、UIUC、佐治亞理工、西北大學六所名校的全獎offer中,選擇了UC伯克利。
讀博期間,尤洋先后在Google Brain、英特爾實驗室、微軟研究院、英偉達、IBM沃森研究中心等知名企業、研究院實習,實習期間為TensorFlow、英偉達GPU上部署caffe、英特爾CPU部署caffe等大型知名開源項目作出了貢獻。
△實習期間尤洋曾去老黃家開party
博士畢業時,尤洋還獲得了頒發給UC伯克利優秀畢業生的Lotfi A. Zadeh Prize,并被提名為ACM Doctoral Dissertation Award候選人(81名博士畢業生中選2人)。
畢業后,他加入新加坡國立大學計算機系,擔任校長青年教授 (Presidential Young Professor)。
在學術研究上,尤洋也同樣戰績斐然。
他曾以一作的身份獲得2015年國際并行與分布式處理大會(IPDPS)的最佳論文和2018年國際并行處理大會(ICPP)最佳論文獎。
其發表論文《Imagenet training in minutes》所提出的方法刷新了ImageNet訓練速度的世界紀錄。
2021年,他還被選入福布斯30歲以下精英榜 (亞洲)。
事實上,潞晨團隊可不止尤洋一位大神。
其團隊核心成員來自美國加州大學伯克利分校、斯坦福大學、清華大學、北京大學、新加坡國立大學、新加坡南洋理工大學等國內外知名高校。
核心團隊在高性能計算、人工智能、分布式系統方面已有十余年的技術積累,并在國際頂級學術刊物或會議發表論文30余篇。
此外,還有美國科學院院士,工程院院士James Demmel教授擔任團隊顧問。
Demmel教授是加州大學伯克利分校前EECS院長兼計算機系主任、中關村戰略科學家、ACM/IEEE Fellow,現任加州大學伯克利分校杰出教授。
目前,潞晨科技還在廣納英才。招聘全職/實習軟件工程師,全職/實習人工智能工程師。
崗位職責主要有:
開發分布式人工智系統并部署到大規模集群或云端。從具體的場景和問題出發,研發和優化算法系統,產出解決方案應用到場景中。參與人工智能技術與現有工具的融合設計和優化,提高產品性能。撰寫高質量的科技論文,有機會擔任重要論文的第一作者 (未來換工作或升學的重要加分項)。任職要求為:
精通TensorFlow, PyTorch, Ray, DeepSpeed, NVIDIA Megatron,熟悉上述系統的內部運行機制。熟悉各類優化算法與模型架構,熟悉python或C++的優化算法庫,包括各類基于梯度的經典算法與經典模型 (BERT, GPT-3, Switch Transformer, ViT, MLP-Mixer)。有較強的編程能力和工程實現能力。獲得過編程競賽獎或發表過高質量論文的優先錄用。211、985、海外知名高校本科以上學位(或在讀),計算機科學、軟件工程,電子信息,自動化,數學,物理或其它人工智能相關專業。如果想入職潞晨,不知道現在惡補還來得及嗎?
簡歷投遞郵箱:luchen.tech@gmail.com
總結
以上是生活随笔為你收集整理的UC伯克利博士尤洋回国创业,曾破ImageNet纪录!已获超千万融资的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: vue 事件总线EventBus的概念、
- 下一篇: 速神经网络的训练算法LARS/LAMB工