紫东太初:自动化所开源图-文-音三模态的预训练大模型
近日,中科院自動(dòng)化所研發(fā)并開(kāi)源了全球首個(gè)圖文音(視覺(jué)-文本-語(yǔ)音)三模態(tài)預(yù)訓(xùn)練模型,兼具跨模態(tài)理解和生成能力,具有了在無(wú)監(jiān)督情況下多任務(wù)聯(lián)合學(xué)習(xí)、并快速遷移到不同領(lǐng)域數(shù)據(jù)的強(qiáng)大能力。自動(dòng)化所構(gòu)建了具有業(yè)界領(lǐng)先性能的中文預(yù)訓(xùn)練模型、語(yǔ)音預(yù)訓(xùn)練模型、視覺(jué)預(yù)訓(xùn)練模型,并開(kāi)拓性地通過(guò)跨模態(tài)語(yǔ)義關(guān)聯(lián)實(shí)現(xiàn)了視覺(jué)-文本-語(yǔ)音三模態(tài)統(tǒng)一表示,構(gòu)建了三模態(tài)預(yù)訓(xùn)練大模型。
中文預(yù)訓(xùn)練模型
模型介紹
文本預(yù)訓(xùn)練模型使用條件語(yǔ)言模型作為自監(jiān)督目標(biāo)進(jìn)行訓(xùn)練,和GPT一樣,模型根據(jù)上文來(lái)預(yù)測(cè)當(dāng)前詞匯。中文預(yù)訓(xùn)練語(yǔ)言模型(Chinese-GPT)由40層transformer組成,隱藏層維度為2560,包含32個(gè)注意力頭,共32億參數(shù)。模型結(jié)構(gòu)如下所示:
模型下載與使用示例地址:https://gitee.com/zidongtaichu/multi-modal-models/tree/master/text
應(yīng)用示例
中文預(yù)訓(xùn)練模型基礎(chǔ)上可以進(jìn)行微調(diào)操作,充分利用少量有監(jiān)督數(shù)據(jù)增強(qiáng)模型在下游任務(wù)上的表現(xiàn),如文本分類(lèi),對(duì)話(huà)生成、古詩(shī)創(chuàng)作等。
1、文本續(xù)寫(xiě)
2、自動(dòng)問(wèn)答
視覺(jué)預(yù)訓(xùn)練模型
模型下載與使用示例地址:https://gitee.com/zidongtaichu/multi-modal-models/tree/master/vision
目標(biāo)檢測(cè)結(jié)果展示
語(yǔ)義分割結(jié)果展示
輕量化圖文預(yù)訓(xùn)練模型
模型介紹
現(xiàn)有的圖文預(yù)訓(xùn)練模型主要針對(duì)英文文本描述進(jìn)行圖像生成,自動(dòng)化所開(kāi)源的圖文預(yù)訓(xùn)練模型可以根據(jù)中文文本描述實(shí)現(xiàn)圖像生成,采用千萬(wàn)級(jí)訓(xùn)練數(shù)據(jù)進(jìn)行自監(jiān)督訓(xùn)練,并通過(guò)知識(shí)蒸餾算法實(shí)現(xiàn)了模型的大幅度壓縮,在盡可能保留模型性能的同時(shí),實(shí)現(xiàn)了預(yù)訓(xùn)練模型的輕量化。
輕量化圖文預(yù)訓(xùn)練模型由DALL-E和CLIP兩個(gè)模型組成,DALL-E模型由8層Transformer組成,隱層維度為512,包含32個(gè)注意力頭,約1億參數(shù);CLIP模型由6層Vision Transformer和3層Transformer組成,Vision Transformer的隱層維度為256,包含16個(gè)注意力頭,Transformer的隱層維度為192,包含12個(gè)注意力頭,約1700萬(wàn)參數(shù)。
模型下載與使用示例地址:https://gitee.com/zidongtaichu/multi-modal-models/tree/master/light_vision_text
圖像檢索
將三模態(tài)預(yù)訓(xùn)練大模型倉(cāng)庫(kù)克隆至本地:
git clone https://gitee.com/zidongtaichu/multi-modal-models.git cd multi-modal-models下載 Light_CLIP 模型文件 model.pt 至 light_vision_text/Light_CLIP 文件夾下:
該示例中,待檢索圖像庫(kù)一共有兩張圖片,分別是 dog.jpg 和 cat.jpg:
test.py?實(shí)現(xiàn)基于文本的圖像檢索:
輸入文本為:一只可愛(ài)的狗狗在草地上奔跑,運(yùn)行 python test.py,模型輸出圖像庫(kù)中各個(gè)圖片的概率值:
輸入文本為:一只貓咪躺在沙發(fā)上睡覺(jué),運(yùn)行 python test.py,模型輸出圖像庫(kù)中各個(gè)圖片的概率值:
圖像生成
(a) 下載 Light_VQGan_Dalle 模型文件dalle_small_model_pre_0924_lr1e-4_new_epoch7_data_point5761440.pt 至 light_vision_text/Light_VQGan_Dalle 文件夾下;
(b) 下載 vqgan 模型文件 vqgan_model.ckpt 至 light_vision_text/Light_VQGan_Dalle/vqgan 文件夾下;
(c) 將 Light_CLIP 模型文件 model.pt 下載至 light_vision_text/Light_VQGan_Dalle/clip 文件夾下。
(d) 修改 light_vision_text/Light_VQGan_Dalle/clip 文件夾下的 rank_photo.py 文件,將41和42行修改為:
self.tokenizer = AutoTokenizer.from_pretrained('bert-base-chinese')(e) 修改?light_vision_text/Light_VQGan_Dalle 文件夾下的 generate.sh,將 --fp16 注釋掉:
在 test_dalle.txt 中輸入進(jìn)行圖像生成的中文文本內(nèi)容:太陽(yáng)落山了
運(yùn)行:
生成的圖像存儲(chǔ)在
?light_vision_text/Light_VQGan_Dalle/output_images 文件夾下:
本站qq群851320808,加入微信群請(qǐng)掃碼:
總結(jié)
以上是生活随笔為你收集整理的紫东太初:自动化所开源图-文-音三模态的预训练大模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Windows平台RTMP/RTSP播放
- 下一篇: 怎样进入pe重建硬盘