阿里达摩院低调上线文本生成视频大模型:仅支持英文输入,已开放试玩
感謝網(wǎng)友 大眼夾、打工軌道人、航空先生 的線索投遞!
3 月 22 日消息,近日,阿里達摩院已在 AI 模型社區(qū)“魔搭”ModelScope 上線了“文本生成視頻大模型”。
根據(jù)官方介紹,目前文本生成視頻大模型,由文本特征提取、文本特征到視頻隱空間擴散模型、視頻隱空間到視頻視覺空間這 3 個子網(wǎng)絡(luò)組成,整體模型參數(shù)約 17 億,目前僅支持英文輸入。擴散模型采用 Unet3D 結(jié)構(gòu),通過從純高斯噪聲視頻中,迭代去噪的過程,實現(xiàn)視頻生成的功能。
官方介紹稱,本模型適用范圍較廣,能基于任意英文文本描述進行推理,生成視頻。一些文本生成視頻示例如下:
據(jù)了解,模型已經(jīng)在創(chuàng)空間和 huggingface 上線,可以直接體驗,也可以參考該頁面自行搭建。模型需要硬件配置大約是 16GB 內(nèi)存和 16GB GPU 顯存。在 ModelScope 框架下,通過調(diào)用簡單的 Pipeline 即可使用當前模型,其中,輸入需為字典格式,合法鍵值為 'text',內(nèi)容為一小段文本。該模型暫僅支持在 GPU 上進行推理。
從試玩的結(jié)果來看,目前能生成的視頻長度多在 2-4 秒,生成等候時間從 20 多秒到 1 分多鐘不等。
總結(jié)
以上是生活随笔為你收集整理的阿里达摩院低调上线文本生成视频大模型:仅支持英文输入,已开放试玩的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: etc的常见算法_运用机器学习算法研究城
- 下一篇: 三圆相交阴影部分面积_小学六年级图形面积
