激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相
激發創新,助力研究:CogVLM,強大且開源的視覺語言模型亮相
-
CogVLM 是一個強大的開源視覺語言模型(VLM)。CogVLM-17B 擁有 100 億視覺參數和 70 億語言參數。
-
CogVLM-17B 在 10 個經典跨模態基準測試上取得了 SOTA 性能,包括 NoCaps、Flicker30k captioning、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA 和 TDIUC,而在 VQAv2、OKVQA、TextVQA、COCO captioning 等方面則排名第二,超越或與 PaLI-X 55B 持平。您可以通過線上 demo 體驗 CogVLM 多模態對話。
1.demo案例展示
- CogVLM 能夠準確地描述圖像,幾乎不會出現幻覺。
LLAVA-1.5 和 MiniGPT-4 的比較。
-
CogVLM 能理解和回答各種類型的問題,并有一個視覺定位版本。
-
CogVLM 有時比 GPT-4V(ision) 提取到更多的細節信息。
2.快速使用
CogVLM 模型包括四個基本組件:視覺變換器(ViT)編碼器、MLP適配器、預訓練的大型語言模型(GPT)和一個視覺專家模塊。更多細節請參見論文。
2.1入門指南
我們提供兩種圖形用戶界面(GUI)進行模型推斷,分別是網頁演示和命令行界面(CLI)。如果您想在Python代碼中使用它,很容易修改CLI腳本以適應您的情況。
首先,需要安裝依賴項。
pip install -r requirements.txt
python -m spacy download en_core_web_sm
- 硬件要求
- 模型推斷:1 * A100(80G) 或 2 * RTX 3090(24G)。
- 微調:4 * A100(80G) [推薦] 或 8 * RTX 3090(24G)。
2.2 網頁演示
我們還提供基于Gradio的本地網頁演示。首先,通過運行 pip install gradio 安裝Gradio。然后下載并進入此倉庫,運行 web_demo.py。具體使用方式如下:
python web_demo.py --from_pretrained cogvlm-chat --version chat --english --bf16
python web_demo.py --from_pretrained cogvlm-grounding-generalist --version base --english --bf16
網頁演示的 GUI 界面如下:
2.3 CLI
我們開源了不同下游任務的模型權重:
- cogvlm-chat 用于對齊的模型,在此之后支持像 GPT-4V 一樣的聊天。
- cogvlm-base-224 文本-圖像預訓練后的原始權重。
- cogvlm-base-490 從 cogvlm-base-224 微調得到的 490px 分辨率版本。
- cogvlm-grounding-generalist 這個權重支持不同的視覺定位任務,例如 REC、Grounding Captioning 等。
通過CLI演示,執行以下命令:
python cli_demo.py --from_pretrained cogvlm-base-224 --version base --english --bf16 --no_prompt
python cli_demo.py --from_pretrained cogvlm-base-490 --version base --english --bf16 --no_prompt
python cli_demo.py --from_pretrained cogvlm-chat --version chat --english --bf16
python cli_demo.py --from_pretrained cogvlm-grounding-generalist --version base --english --bf16
該程序會自動下載 sat 模型并在命令行中進行交互。您可以通過輸入指令并按 Enter 生成回復。
輸入 clear 可清除對話歷史,輸入 stop 可停止程序。
- 參考鏈接
https://github.com/THUDM/CogVLM/tree/main
在 CogVLM 的指令微調階段,使用了來自 MiniGPT-4 、 LLAVA 、 LRV-Instruction、 LLaVAR 和 Shikra 項目的一些英文圖像-文本數據,
更多優質內容請關注公號:汀丶人工智能;會提供一些相關的資源和優質文章,免費獲取閱讀。
總結
以上是生活随笔為你收集整理的激发创新,助力研究:CogVLM,强大且开源的视觉语言模型亮相的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 发现AI自我意识:知识及其载体
- 下一篇: 机场建设费,燃油费的收费标准是多少