當前位置：首頁 > 运维知识 > windows >内容正文

windows

激发创新，助力研究：CogVLM，强大且开源的视觉语言模型亮相

發布時間：2023/11/23 windows 45 coder

生活随笔收集整理的這篇文章主要介紹了激发创新，助力研究：CogVLM，强大且开源的视觉语言模型亮相小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

激發創新，助力研究：CogVLM，強大且開源的視覺語言模型亮相

CogVLM 是一個強大的開源視覺語言模型（VLM）。CogVLM-17B 擁有 100 億視覺參數和 70 億語言參數。
CogVLM-17B 在 10 個經典跨模態基準測試上取得了 SOTA 性能，包括 NoCaps、Flicker30k captioning、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA 和 TDIUC，而在 VQAv2、OKVQA、TextVQA、COCO captioning 等方面則排名第二，超越或與 PaLI-X 55B 持平。您可以通過線上 demo 體驗 CogVLM 多模態對話。

1.demo案例展示

CogVLM 能夠準確地描述圖像，幾乎不會出現幻覺。
LLAVA-1.5 和 MiniGPT-4 的比較。

CogVLM 能理解和回答各種類型的問題，并有一個視覺定位版本。
CogVLM 有時比 GPT-4V(ision) 提取到更多的細節信息。

2.快速使用

CogVLM 模型包括四個基本組件：視覺變換器（ViT）編碼器、MLP適配器、預訓練的大型語言模型（GPT）和一個視覺專家模塊。更多細節請參見論文。

2.1入門指南

我們提供兩種圖形用戶界面（GUI）進行模型推斷，分別是網頁演示和命令行界面（CLI）。如果您想在Python代碼中使用它，很容易修改CLI腳本以適應您的情況。

首先，需要安裝依賴項。

pip install -r requirements.txt
python -m spacy download en_core_web_sm

硬件要求
- 模型推斷：1 * A100(80G) 或 2 * RTX 3090(24G)。
- 微調：4 * A100(80G) [推薦] 或 8 * RTX 3090(24G)。

2.2 網頁演示

我們還提供基于Gradio的本地網頁演示。首先，通過運行 pip install gradio 安裝Gradio。然后下載并進入此倉庫，運行 web_demo.py。具體使用方式如下：

python web_demo.py --from_pretrained cogvlm-chat --version chat --english --bf16
python web_demo.py --from_pretrained cogvlm-grounding-generalist --version base --english --bf16

網頁演示的 GUI 界面如下：

2.3 CLI

我們開源了不同下游任務的模型權重：

cogvlm-chat 用于對齊的模型，在此之后支持像 GPT-4V 一樣的聊天。
cogvlm-base-224 文本-圖像預訓練后的原始權重。
cogvlm-base-490 從 cogvlm-base-224 微調得到的 490px 分辨率版本。
cogvlm-grounding-generalist 這個權重支持不同的視覺定位任務，例如 REC、Grounding Captioning 等。

通過CLI演示，執行以下命令：

python cli_demo.py --from_pretrained cogvlm-base-224 --version base --english --bf16 --no_prompt
python cli_demo.py --from_pretrained cogvlm-base-490 --version base --english --bf16 --no_prompt
python cli_demo.py --from_pretrained cogvlm-chat --version chat --english --bf16
python cli_demo.py --from_pretrained cogvlm-grounding-generalist --version base --english --bf16

該程序會自動下載 sat 模型并在命令行中進行交互。您可以通過輸入指令并按 Enter 生成回復。
輸入 clear 可清除對話歷史，輸入 stop 可停止程序。

參考鏈接

https://github.com/THUDM/CogVLM/tree/main

在 CogVLM 的指令微調階段，使用了來自 MiniGPT-4 、 LLAVA 、 LRV-Instruction、 LLaVAR 和 Shikra 項目的一些英文圖像-文本數據，

更多優質內容請關注公號：汀丶人工智能；會提供一些相關的資源和優質文章，免費獲取閱讀。

總結

以上是生活随笔為你收集整理的激发创新，助力研究：CogVLM，强大且开源的视觉语言模型亮相的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：发现AI自我意识:知识及其载体
下一篇：机场建设费，燃油费的收费标准是多少