當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

阿里达摩院低调上线文本生成视频大模型：仅支持英文输入，已开放试玩

發(fā)布時間：2023/12/19 综合教程 30 生活家

生活随笔收集整理的這篇文章主要介紹了阿里达摩院低调上线文本生成视频大模型：仅支持英文输入，已开放试玩小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

感謝網(wǎng)友大眼夾、打工軌道人、航空先生的線索投遞！

3 月 22 日消息，近日，阿里達摩院已在 AI 模型社區(qū)“魔搭”ModelScope 上線了“文本生成視頻大模型”。

根據(jù)官方介紹，目前文本生成視頻大模型，由文本特征提取、文本特征到視頻隱空間擴散模型、視頻隱空間到視頻視覺空間這 3 個子網(wǎng)絡(luò)組成，整體模型參數(shù)約 17 億，目前僅支持英文輸入。擴散模型采用 Unet3D 結(jié)構(gòu)，通過從純高斯噪聲視頻中，迭代去噪的過程，實現(xiàn)視頻生成的功能。

官方介紹稱，本模型適用范圍較廣，能基于任意英文文本描述進行推理，生成視頻。一些文本生成視頻示例如下：

A giraffe underneath a microwave.（一只在微波爐里的長頸鹿）

A goldendoodle playing in a park by a lake.（一只金貴犬在湖邊的公園玩耍）

據(jù)了解，模型已經(jīng)在創(chuàng)空間和 huggingface 上線，可以直接體驗，也可以參考該頁面自行搭建。模型需要硬件配置大約是 16GB 內(nèi)存和 16GB GPU 顯存。在 ModelScope 框架下，通過調(diào)用簡單的 Pipeline 即可使用當前模型，其中，輸入需為字典格式，合法鍵值為 'text'，內(nèi)容為一小段文本。該模型暫僅支持在 GPU 上進行推理。

從試玩的結(jié)果來看，目前能生成的視頻長度多在 2-4 秒，生成等候時間從 20 多秒到 1 分多鐘不等。

總結(jié)

以上是生活随笔為你收集整理的阿里达摩院低调上线文本生成视频大模型：仅支持英文输入，已开放试玩的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： etc的常见算法_运用机器学习算法研究城
下一篇：三圆相交阴影部分面积_小学六年级图形面积

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

综合教程

阿里达摩院低调上线文本生成视频大模型：仅支持英文输入，已开放试玩

總結(jié)