Meta「分割一切」超进化版来了,IDEA 领衔国内顶尖团队打造:检测、分割、生成一切,狂揽 2k 星
Meta 的 SAM「分割一切」模型剛發布,國內團隊就進行了二創,打造了一個最強的零樣本視覺應用 Grounded-SAM,不僅能分割一切,還能檢測一切,生成一切。
Meta 的「分割一切」模型橫空出世后,已經讓圈內人驚呼 CV 不存在了。
就在 SAM 發布后一天,國內團隊在此基礎上搞出了一個進化版本「Grounded-SAM」。
Grounded-SAM 把 SAM 和 BLIP、Stable Diffusion 集成在一起,將圖片「分割」、「檢測」和「生成」三種能力合一,成為最強 Zero-Shot 視覺應用。
網友紛紛表示,太卷了!
谷歌大腦的研究科學家、滑鐵盧大學計算機科學助理教授 Wenhu Chen 表示「這也太快了」。
AI 大佬沈向洋也向大家推薦了這一最新項目:
Grounded-Segment-Anything:自動檢測、分割和生成任何有圖像和文本輸入的東西。邊緣分割可以進一步改進。
截至目前,這個項目在 GitHub 上已經狂攬 2k 星。
檢測一切,分割一切,生成一切
上周,SAM 的發布讓 CV 迎來了 GPT-3 時刻。甚至,Meta AI 聲稱這是史上首個圖像分割基礎模型。
該模型可以在統一的框架 prompt encoder 內,指定一個點、一個邊界框、一句話,直接一鍵分割出任何物體。
SAM 具有廣泛的通用性,即具有了零樣本遷移的能力,足以涵蓋各種用例,不需要額外訓練,就可以開箱即用地用于新的圖像領域,無論是水下照片,還是細胞顯微鏡。
由此可見,SAM 可以說是強到發指。
而現在,國內研究者基于這個模型想到了新的點子,將強大的零樣本目標檢測器 Grounding DINO 與之結合,便能通過文本輸入,檢測和分割一切。
借助 Grounding DINO 強大的零樣本檢測能力,Grounded SAM 可以通過文本描述就可以找到圖片中的任意物體,然后通過 SAM 強大的分割能力,細粒度的分割出 mas。
最后,還可以利用 Stable Diffusion 對分割出來的區域做可控的文圖生成。
再 Grounded-SAM 具體實踐中,研究者將 Segment-Anything 與 3 個強大的零樣本模型相結合,構建了一個自動標注系統的流程,并展示出非常非常令人印象深刻的結果!
這一項目結合了以下模型:
?BLIP:強大的圖像標注模型
?Grounding DINO:最先進的零樣本檢測器
?Segment-Anything:強大的零樣本分割模型
?Stable-Diffusion:出色的生成模型
所有的模型既可以組合使用,也可以獨立使用。組建出強大的視覺工作流模型。整個工作流擁有了檢測一切,分割一切,生成一切的能力。
該系統的功能包括:
BLIP+Grounded-SAM = 自動標注器
使用 BLIP 模型生成標題,提取標簽,并使用 Ground-SAM 生成框和掩碼:
?半自動標注系統:檢測輸入的文本,并提供精確的框標注和掩碼標注。
?全自動標注系統:
首先使用 BLIP 模型為輸入圖像生成可靠的標注,然后讓 Grounding DINO 檢測標注中的實體,接著使用 SAM 在其框提示上進行實例分割。
Stable Diffusion+Grounded-SAM = 數據工廠
?用作數據工廠生成新數據:可以使用擴散修復模型根據掩碼生成新數據。
Segment Anything+HumanEditing
在這個分支中,作者使用 Segment Anything 來編輯人的頭發 / 面部。
?SAM + 頭發編輯
?SAM + 時尚編輯
作者對于 Grounded-SAM 模型提出了一些未來可能的研究方向:
自動生成圖像以構建新的數據集;分割預訓練的更強大的基礎模型;與 (Chat-) GPT 模型的合作;一個完整的管道,用于自動標注圖像(包括邊界框和掩碼),并生成新圖像。
作者介紹
Grounded-SAM 項目其中的一位研究者是清華大學計算機系的三年級博士生劉世隆。
他近日在 GitHub 上介紹了自己和團隊一起做出的最新項目,并稱目前還在完善中。
現在,劉世隆是粵港澳大灣區數字經濟研究院(IDEA 研究院),計算機視覺與機器人研究中心的實習生,由張磊教授指導,主要研究方向為目標檢測,多模態學習。
在此之前,他于 2020 年獲得了清華大學工業工程系的學士學位,并于 2019 年在曠視實習過一段時間。
順便提一句,劉世隆也是今年 3 月份發布的目標檢測模型 Grounding DINO 的一作。
此外,他的 4 篇論文中了 CVPR 2023,2 篇論文被 ICLR 2023 接收,1 篇論文被 AAAI 2023 接收。
而劉世隆提到的那位大佬 —— 任天和,目前在 IDEA 研究院擔任計算機視覺算法工程師,也由張磊教授指導,主要研究方向為目標檢測和多模態。
此外,項目的合作者還有,中國科學院大學博士三年級學生黎昆昌,主要研究方向為視頻理解和多模態學習;IDEA 研究院計算機視覺與機器人研究中心實習生曹赫,主要研究方向為生成模型;以及阿里云高級算法工程師陳佳禹。
安裝運行
項目需要安裝 python 3.8 及以上版本,pytorch 1.7 及以上版本和 torchvision 0.8 及以上版本。此外,作者強烈建議安裝支持 CUDA 的 PyTorch 和 TorchVision。
安裝 Segment Anything:
python-mpipinstall-esegment_anything安裝 GroundingDINO:
python-mpipinstall-eGroundingDINO安裝 diffusers:
pipinstall--upgradediffusers[torch]安裝掩碼后處理、以 COCO 格式保存掩碼、example notebook 和以 ONNX 格式導出模型所需的可選依賴。同時,項目還需要 jupyter 來運行 example notebook。
pipinstallopencv-pythonpycocotoolsmatplotlibonnxruntimeonnxipykernelGroundingDINO 演示
下載 groundingdino 檢查點:
cdGrounded-Segment-Anything wgethttps://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth運行 demo:
exportCUDA_VISIBLE_DEVICES=0 pythongrounding_dino_demo.py\ --configGroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py\ --grounded_checkpointgroundingdino_swint_ogc.pth\ --input_imageassets/demo1.jpg\ --output_dir"outputs"\ --box_threshold0.3\ --text_threshold0.25\ --text_prompt"bear"\ --device"cuda"模型預測可視化將保存在 output_dir 中,如下所示:
Grounded-Segment-Anything+BLIP 演示
自動生成偽標簽很簡單:
1. 使用 BLIP(或其他標注模型)來生成一個標注。
2. 從標注中提取標簽,并使用 ChatGPT 來處理潛在的復雜句子。
3. 使用 Grounded-Segment-Anything 來生成框和掩碼。
exportCUDA_VISIBLE_DEVICES=0 pythonautomatic_label_demo.py\ --configGroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py\ --grounded_checkpointgroundingdino_swint_ogc.pth\ --sam_checkpointsam_vit_h_4b8939.pth\ --input_imageassets/demo3.jpg\ --output_dir"outputs"\ --openai_keyyour_openai_key\ --box_threshold0.25\ --text_threshold0.2\ --iou_threshold0.5\ --device"cuda"偽標簽和模型預測可視化將保存在 output_dir 中,如下所示:
Grounded-Segment-Anything+Inpainting 演示
CUDA_VISIBLE_DEVICES=0 pythongrounded_sam_inpainting_demo.py\ --configGroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py\ --grounded_checkpointgroundingdino_swint_ogc.pth\ --sam_checkpointsam_vit_h_4b8939.pth\ --input_imageassets/inpaint_demo.jpg\ --output_dir"outputs"\ --box_threshold0.3\ --text_threshold0.25\ --det_prompt"bench"\ --inpaint_prompt"Asofa,highquality,detailed"\ --device"cuda"Grounded-Segment-Anything+Inpainting Gradio App
pythongradio_.py作者在此提供了可視化網頁,可以更方便的嘗試各種例子。
網友評論
對于這個項目 logo,還有個深層的含義:
一只坐在地上的馬賽克風格的熊。坐在地面上是因為 ground 有地面的含義,然后分割后的圖片可以認為是一種馬賽克風格,而且馬塞克諧音 mask,之所以用熊作為 logo 主體,是因為作者主要示例的圖片是熊。
看到 Grounded-SAM 后,網友表示,知道要來,但沒想到來的這么快。
項目作者任天和稱,「我們用的 Zero-Shot 檢測器是目前來說最好的。」
未來,還會有 web demo 上線。
最后,作者表示,這個項目未來還可以基于生成模型做更多的拓展應用,例如多領域精細化編輯、高質量可信的數據工廠的構建等等。歡迎各個領域的人多多參與。
參考資料:
-
https://github.com/IDEA-Research/Grounded-Segment-Anything
-
https://www.reddit.com/r/MachineLearning/comments/12gnnfs/r_groundedsegmentanything_automatically_detect/
-
https://zhuanlan.zhihu.com/p/620271321
本文來自微信公眾號:新智元 (ID:AI_era)
總結
以上是生活随笔為你收集整理的Meta「分割一切」超进化版来了,IDEA 领衔国内顶尖团队打造:检测、分割、生成一切,狂揽 2k 星的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: How does framework i
- 下一篇: SAP Commerce Acceler