文生图 10 倍速,视频实时渲染!清华发布 LCM:兼容全部 SD 大模型、LoRA、插件等
全面兼容 Stable Diffusion 生態,LCM 模型成功實現 5-10 倍生成速度的提升,實時 AI 藝術時代即將到來,所想即所得!
Latent Consistency Models(潛一致性模型)是一個以生成速度為主要亮點的圖像生成架構。
和需要多步迭代傳統的擴散模型(如 Stable Diffusion)不同,LCM 僅用 1 - 4 步即可達到傳統模型 30 步左右的效果。
由清華大學交叉信息研究院研究生駱思勉和譚亦欽發明,LCM 將文生圖生成速度提升了 5-10 倍,世界自此邁入實時生成式 AI 的時代。
LCM-LoRA: https://huggingface.co/papers/2311.05556
項目主頁:https://latent-consistency-models.github.io/
Stable Diffusion 殺手:LCM
在 LCM 出現之前,不同團隊在各種方向探索了五花八門的 SD1.5 和 SDXL 替代方案。
這些項目各有特色,但都存在著不兼容 LoRA 和不完全兼容 Stable Diffusion 生態的硬傷。按發布時間順序,比較重要的項目有:
這時,LCM-LoRA 出現了:將 SD1.5、SSD1B、SDXL 蒸餾為 LCM 的 LoRA,將生成 5 倍加速生成能力帶到所有 SDXL 模型上并兼容所有現存的 LoRA,同時犧牲了小部分生成質量; 項目迅速獲得了 Stable Diffusion 生態大量插件、發行版本的支持。
LCM 同時也發布了訓練腳本,可以支持訓練自己的 LCM 大模型(如 LCM-SDXL)或 LCM-LoRA,做到兼顧生成質量和速度。只要一次訓練,就可以在保持生成質量的前提下提速 5 倍。
至此,LCM 生態體系具備了完整替代 SD 的雛形。
截止至 2023/11/22,已支持 LCM 的開源項目:
Stable Diffusion 發行版
WebUI(原生支持 LCM-LoRA,LCM 插件支持 LCM-SDXL)、ComfyUI、Fooocus(LCM-LoRA)、DrawThings
小模型
LCM-LoRA 兼容其他 LoRA,ControlNet
AnimateDiff WebUI 插件
計劃中添加支持的項目:
WebUI 主分支持
訓練腳本 Kohya SS
LCM-SDXL、LCM-DreamShaper 專屬的 ControlNet
LCM-AnimateDiff
隨著生態體系的逐漸發展,LCM 有潛力作為新一代圖像生成底層完整替代 Stable Diffusion。
未來展望
自 Stable Diffusion 發布至今,生成成本被緩慢優化,而 LCM 的出現使得圖像生成成本直接下降了一個數量級。每當革命性的技術出現,都會帶來重塑產業的大量機會。LCM 至少能在圖像生成成本消失、視頻生成、實時生成三大方面給產業格局帶來重大變化。
1. 圖像生成成本消失
To C 產品端,免費替代收費。受高昂的 GPU 算力成本限制,以 Midjourney 為代表的大量文生圖服務選擇免費增值作為商業模型。LCM 使手機客戶端、個人電腦 CPU、瀏覽器(WebAssembly)、更容易彈性擴容的 CPU 算力都可能在未來滿足圖像生成的算力需求。簡單的收費文生圖服務如 Midjourney 會被高質量的免費服務替代。
To B 服務端,減少的生成算力需求會被增長的訓練算力需求替代。
AI 圖片生成服務對算力的需求在峰值和谷底漲落極大,購買服務器閑置時間通常超過 50%。這種特點促進了大量函數計算 GPU(serverless GPU)如美國 Replicate、中國阿里云的蓬勃發展。
硬件虛擬化方面如國內的瑞云、騰訊云等也在浪潮中推出了圖像模型訓練相關虛擬桌面產品。隨著生成算力下放到邊緣、客戶端或更容易擴容的 CPU 算力,AI 生圖將普及到各類應用場景中,圖像模型微調的需求會大幅上漲。在圖像領域,專業、易用、垂直的模型訓練服務會成為下一階段云端 GPU 算力的主要消費者。
2. 文生視頻
文生視頻目前極高的生成成本制約了技術的發展和普及,消費級顯卡只能以緩慢的速度逐幀渲染。以 AnimateDiff WebUI 插件為代表的一批項目優先支持了 LCM,使得更多人能參與到文生視頻的開源項目中。更低的門檻必然會加速文生視頻的普及和發展。
3. 實時渲染
速度的增加催生了大量新應用,不斷拓展著所有人的想象空間。
RT-LCM 與 AR
以 RealTime LCM 為先導,消費級 GPU 上第一次實現了每秒 10 幀左右的實時視頻生成視頻,這在 AR 領域必然產生深遠的影響。
目前高清、低延時捕捉重繪視線內整個場景需要極高算力,所以過去 AR 應用主要以添加新物體、提取特征后低清重繪部分物體為主。LCM 使得實時重繪整個場景成為可能,在游戲、互動式電影、社交等場景中都有無限的想象空間。
未來游戲場景不需新建,帶上 AR 眼鏡,身處的街道立刻轉換為霓虹閃爍的賽博朋克未來風格供玩家探索;看未來的互動式恐怖電影時帶上 AR 眼鏡,家中熟悉的一切可以無縫融入場景,嚇人的東西就藏在臥室門后。虛擬和現實將無縫融合,真實和夢境讓人愈發難以區分。而這一切底層都可能會有 LCM 的身影。
交互方式 - 所想即所得(What you imagine is what you get)
由 Krea.ai、ilumine.ai 首先產品化的實時圖像編輯 UI 再次降低了創作的門檻、擴大了創意的邊界,讓更多人在精細控制的基礎上獲得了最終畫作的實時反饋。
建模軟件 + LCM 探索了 3D 建模的新方向,讓 3D 建模師在所見即所得基礎上更進一步,獲得了所想即所得的能力。
手是人類最沒用的東西,因為手永遠跟不上腦子的速度。所見即所得(What you see is what you get)太慢,所想即所得(What you imagine is what you get)會成為未來的創意工作的主流。
LCM 第一次讓展示效果跟上了靈感創意產生的速度。新的交互方式持續涌現,AIGC 革命的終點是將創意的成本、技術門檻降低至無限接近于 0。不分行業,好的創意將會從稀缺變為過剩。LCM 將我們向未來又推進了一步。
參考資料:
https://latent-consistency-models.github.io/
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節省甄選時間,結果僅供參考,所有文章均包含本聲明。
總結
以上是生活随笔為你收集整理的文生图 10 倍速,视频实时渲染!清华发布 LCM:兼容全部 SD 大模型、LoRA、插件等的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 水底月为天上月的下一句是什么呢?
- 下一篇: telegrm gif怎么保存(tele