首个中文Stable Diffusion模型开源;TPU演进十年;18个PyTorch性能优化技巧 | AI系统前沿动态...
1. TPU演進(jìn)十年:Google的十大經(jīng)驗(yàn)教訓(xùn)
希臘神話中,特洛伊戰(zhàn)爭(zhēng)的起因是兩方爭(zhēng)奪世界上最美的女人——海倫,后世詩(shī)人將海倫的美貌“令成千戰(zhàn)艦為之起航”。TPU就像海倫,它的出現(xiàn)引起了“成千芯片與之競(jìng)逐”。
可以說,TPU的問世引發(fā)了硅谷的“地震”。TPU宣布誕生后,Intel耗資數(shù)十億美元收購(gòu)了多家芯片公司,阿里巴巴、Amazon等競(jìng)爭(zhēng)對(duì)手紛紛開始研發(fā)類似產(chǎn)品。TPU重新喚起了人們對(duì)計(jì)算機(jī)架構(gòu)的關(guān)注,后來的幾年內(nèi),出現(xiàn)了上百家相關(guān)初創(chuàng)企業(yè),年均總?cè)谫Y額近20億美元,各種新奇的想法層出不窮。
鏈接:
https://mp.weixin.qq.com/s/XuwExQsg582YSAQboypbsA
2. 進(jìn)擊的PyTorch,和它背后的開源領(lǐng)袖
十年間,從Torch進(jìn)化到PyTorch,再到近期落地Linux基金會(huì),PyTorch從一個(gè)無心插柳的項(xiàng)目逐漸演變?yōu)樽钣杏绊懥Φ拈_源項(xiàng)目之一。它究竟是如何一步步成長(zhǎng)起來的?背后有那些與眾不同的故事?
鏈接:
https://mp.weixin.qq.com/s/JrutTVvFtx3xZoagy661LQ
3. 首個(gè)中文Stable Diffusion模型開源,中文AI藝術(shù)時(shí)代開啟
生成內(nèi)容一直被視為 AI 領(lǐng)域中最具有挑戰(zhàn)性的能力,最近大火的 AI 繪畫背后,是 Stable Diffusion 模型的開源,催生了眾多 AI 繪畫的應(yīng)用,得益于 Stability AI 的開源精神,這一創(chuàng)變推動(dòng)了整個(gè)以英文為主的下游文生圖生態(tài)的蓬勃發(fā)展。
然而在國(guó)內(nèi),目前大部分團(tuán)隊(duì)主要是基于翻譯 API + 英文 stable diffusion 模型進(jìn)行開發(fā),但由于中英文之間所得存在文化差異導(dǎo)致遇到中文獨(dú)特的敘事和表達(dá)時(shí),這種模型就很難給出正確匹配的圖片內(nèi)容。因此,IDEA 研究院認(rèn)知計(jì)算與自然語(yǔ)言研究中心(IDEA CCNL)開源了第一個(gè)中文版本的 stable diffusion 模型“太乙 Stable Diffusion”,讓中文的世界真正擁有具備中國(guó)文化內(nèi)核的 AIGC 模型。
鏈接:
https://mp.weixin.qq.com/s/WrzkiJOxqNcFpdU24BKbMA
4. 開源風(fēng)暴吞噬AI界?從Stable Diffusion的爆火說起
近日,文本生成圖像模型Stable Diffusion背后的公司Stability AI宣布獲得了1.01億美元超額融資,估值達(dá)10億美元,這家基于開源社區(qū)的“草根”企業(yè)的風(fēng)頭一時(shí)間甚至蓋過了業(yè)界頂級(jí)研究機(jī)構(gòu)OpenAI。
盡管開源項(xiàng)目存在商業(yè)模式、開源許可協(xié)議等方面的挑戰(zhàn),但通過良好開源社區(qū)的驅(qū)動(dòng),AI項(xiàng)目的技術(shù)發(fā)展、應(yīng)用廣度和創(chuàng)造空間都有了意想不到的發(fā)展,正如開源“吞噬”軟件1.0,“開源AI”運(yùn)動(dòng)將在軟件2.0時(shí)代不可阻擋。
鏈接:
https://mp.weixin.qq.com/s/yc5zCng3DLfn9mR80XncRw
5. 曠視開源深度學(xué)習(xí)模型編譯器 MegCC
MegEngine 團(tuán)隊(duì)開源的深度學(xué)習(xí)模型編譯器 MegCC是一個(gè)運(yùn)行時(shí)超輕量,高效,移植簡(jiǎn)單的深度學(xué)習(xí)模型編譯器。基于 MLIR 開發(fā),便于所有對(duì)二進(jìn)制大小/內(nèi)存占用敏感的推理場(chǎng)景。輸入模型,輸出可執(zhí)行文件,mobilenetv1 的推理runtime 只要 81KB,速度和內(nèi)存占用都很不錯(cuò)。為了便于大家使用,在MegEngine 模型之外還支持 ONNX 模型的導(dǎo)入。
鏈接:
https://github.com/MegEngine/MegCC
6. TensorFlow將于2023年發(fā)布新版,明確四大支柱
近日,谷歌宣布他們已經(jīng)著手開發(fā) TensorFlow 的下一個(gè)迭代,并專注于快速和可擴(kuò)展、應(yīng)用型 ML、部署、簡(jiǎn)單化這四大支柱。更具體地,谷歌計(jì)劃在 2023 年第二季度發(fā)布新的 TensorFlow 預(yù)覽版,之后晚些時(shí)候發(fā)布生產(chǎn)版本。
鏈接:
https://mp.weixin.qq.com/s/5YIT45AcSe1237kYnADUrw
7. PyTorch編譯機(jī)制的總結(jié)
PyTorch 編譯器一直在不斷變化,不斷出現(xiàn)新的解決方案堆棧或 IR,新方案都與以前的解決方案部分重疊。這是為什么?
鏈接:
https://dev-discuss.pytorch.org/t/the-nuances-of-pytorch-graph-capture/501
8. 優(yōu)化PyTorch的速度和內(nèi)存效率(2022)
深度學(xué)習(xí)模型的訓(xùn)練/推理過程涉及很多步驟。在有限的時(shí)間和資源條件下,每個(gè)迭代的速度越快,整個(gè)模型的預(yù)測(cè)性能就越快。作者收集了幾個(gè)PyTorch技巧,以最大化內(nèi)存使用效率和最小化運(yùn)行時(shí)間。為了更好地利用這些技巧,我們還需要理解它們?nèi)绾我约盀槭裁从行А?/p>
鏈接:
https://mp.weixin.qq.com/s/BYV-ANrWpaKHEYnTomBCXQ
9. OneFlow的大模型分片保存和加載策略
在模型比較小時(shí)(如 100G 以下),還有可能采用單機(jī)存儲(chǔ)。當(dāng)模型參數(shù)量比較大時(shí),要求的樣本數(shù)也更大,訓(xùn)練后做 dump 出來的模型也會(huì)很大,單機(jī)肯定放不下。本文將介紹 OneFlow 的大模型分片保存、加載策略以及使用方法。
鏈接:
https://mp.weixin.qq.com/s/2Z400_r_ZVwYYnGH7vw9zg
10. 視頻教程|OneFlow源碼解析(3):OneFlow的Eager VM
其它的深度學(xué)習(xí)框架的動(dòng)態(tài)圖運(yùn)行時(shí),往往可能只做簡(jiǎn)單的算子派發(fā)。OneFlow 的動(dòng)態(tài)圖運(yùn)行時(shí)(Eager VM),做了多項(xiàng)技術(shù)創(chuàng)新,如:將張量的生命周期作為性能優(yōu)化的考量之一。這使得 OneFlow Eager VM 在通常情況下,都具有性能優(yōu)勢(shì),在某些邊界情況下,這類性能優(yōu)勢(shì)可以超過100%。
鏈接:
https://www.bilibili.com/video/BV1xY4y1K7e6/?spm_id_from=333.788.recommend_more_video.1&vd_source=25c3e9bdd8a5701b69d322f471c11c38
11. 昇思金箍棒:基于MindSpore的業(yè)界SOTA模型壓縮算法集
近些年來,隨著算力的提升、數(shù)據(jù)的爆炸式增長(zhǎng)和深度神經(jīng)網(wǎng)絡(luò)技術(shù)的成熟,深度神經(jīng)網(wǎng)絡(luò)在CV、NLP等很多領(lǐng)域都取得了遠(yuǎn)超傳統(tǒng)機(jī)器學(xué)習(xí)的效果,相應(yīng)的,神經(jīng)網(wǎng)絡(luò)的規(guī)模和參數(shù)量也在迅速增加。端邊設(shè)備的算力、電量和內(nèi)存雖然有提升,但并不能匹配神經(jīng)網(wǎng)絡(luò)的部署要求,模型壓縮算法就是為解決這個(gè)矛盾應(yīng)運(yùn)而生。
鏈接:
https://zhuanlan.zhihu.com/p/555032583
12. Meta發(fā)布全新推理引擎AITemplate
Meta 發(fā)布了革命性的推理引擎 AITemplate。測(cè)試結(jié)果顯示,相比 PyTorch Eager,AITemplate 在 NVIDIA GPU 上實(shí)現(xiàn)了最高 12 倍的性能提升,在 AMD GPU 上實(shí)現(xiàn)了高達(dá) 4 倍的性能提升。
鏈接:
https://mp.weixin.qq.com/s/POMDj0P4-IHVR1y63CKBkQ
13. 一行代碼12倍加速Bert推理,OpenAI編程語(yǔ)言加持的引擎火了
一行代碼的威力到底有多大?今天我們要介紹的這個(gè) Kernl 庫(kù),用戶只需一行代碼,在 GPU 上就能以快幾倍的速度運(yùn)行 Pytorch transformer 模型,從而極大的加快了模型的推理速度。具體而言,有了 Kernl 的加持,Bert 的推理速度比 Hugging Face 基線快了 12 倍。
這一成果主要得益于 Kernl 用新的 OpenAI 編程語(yǔ)言 Triton 和 TorchDynamo 編寫了定制的 GPU 內(nèi)核。項(xiàng)目作者來自 Lefebvre Sarrut。
鏈接:
https://mp.weixin.qq.com/s/aIjq2JDUrfTmm7Bw6QdiPA
14. 重磅!AI基礎(chǔ)軟件架構(gòu)峰會(huì)來襲,算法能力的新躍遷
 ?
 2022年11月19日,DataFunSummit2022:AI基礎(chǔ)軟件架構(gòu)峰會(huì)將如約而至。本次峰會(huì)由3位主席與5位出品人精心策劃而成,共包含了:深度學(xué)習(xí)框架、超大規(guī)模模型訓(xùn)練、AI芯片及編譯器、新一代AI基礎(chǔ)架構(gòu)及應(yīng)用、MLOps及AI工程化落地、端側(cè)推理等6大主題論壇,邀請(qǐng)30余位來自國(guó)內(nèi)外一線的AI基礎(chǔ)軟件技術(shù)專家,進(jìn)行深度分享交流。本次峰會(huì)將全程直播,歡迎大家屆時(shí)收看。
鏈接:https://mp.weixin.qq.com/s/8yOBMadMts6zaic3Zpn6xg
 ?
 其他人都在看
-  
機(jī)器學(xué)習(xí)編譯器的前世今生
 -  
OneFlow源碼解析:Global Tensor
 -  
TPU演進(jìn)十年:Google的十大經(jīng)驗(yàn)教訓(xùn)
 -  
更快的YOLOv5問世,附送全面中文解析教程
 -  
開源吞噬AI界?從Stable Diffusion的爆火說起
 -  
OneEmbedding:單卡訓(xùn)練TB級(jí)推薦模型不是夢(mèng)
 -  
大模型訓(xùn)練難?效率超群、易用的“李白”模型庫(kù)來了
 
歡迎體驗(yàn)OneFlow v0.8.0:https://github.com/Oneflow-Inc/oneflow/https://github.com/Oneflow-Inc/oneflow/stargazers
總結(jié)
以上是生活随笔為你收集整理的首个中文Stable Diffusion模型开源;TPU演进十年;18个PyTorch性能优化技巧 | AI系统前沿动态...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: Python 照片转换为素描风格并保存
 - 下一篇: Learning: 利用Python进行