AI:人工智能的多模态融合模型的简介、发展以及未来趋势
AI:人工智能的多模態(tài)融合模型的簡介、發(fā)展以及未來趨勢
目錄
人工智能的多模態(tài)融合模型的簡介、發(fā)展以及未來趨勢
多模態(tài)融合模型的簡介
多模態(tài)融合模型的發(fā)展趨勢
多模態(tài)常見應(yīng)用分類
1、按照模態(tài)分類
2、按照功能分類
多模態(tài)模型案例
相關(guān)文章:
Paper:《Multimodal Machine Learning: A Survey and Taxonomy,多模態(tài)機(jī)器學(xué)習(xí):綜述與分類》翻譯與解讀
人工智能的多模態(tài)融合模型的簡介、發(fā)展以及未來趨勢
多模態(tài)融合模型的簡介
? ? ? ? ?" 模態(tài) "(Modality)是德國理學(xué)家赫爾姆霍茨提出的一種生物學(xué)概念,即生物憑借感知器官與經(jīng)驗(yàn)來接收信息的通道,如人類有視覺、聽覺、觸覺、味覺和嗅覺模態(tài)。多模態(tài)是指將多種感官進(jìn)行融合,而多模態(tài)交互是指人通過聲音、肢體語言、信息載體(文字、圖片、音頻、視頻)、環(huán)境等多個通道與計(jì)算機(jī)進(jìn)行交流,充分模擬人與人之間的交互方式。
? ? ? ? ?每一種信息的來源或者形式,都可以稱為一種模態(tài)。例如,人有觸覺,聽覺,視覺,嗅覺;信息的媒介,有語音、視頻、文字等;多種多樣的傳感器,如雷達(dá)、紅外、加速度計(jì)等。以上的每一種都可以稱為一種模態(tài)。
? ? ? ? ?不同模態(tài)(例如圖像、文本、音頻)中學(xué)習(xí)的方式存在很大差異。
? ? ? ? ?為了讓人工智能在理解我們周圍的世界方面取得進(jìn)展,它需要能夠解釋和推理關(guān)于多模態(tài)信息。多模態(tài)機(jī)器學(xué)習(xí)旨在建立能夠處理和關(guān)聯(lián)來自多種模態(tài)信息的模型。從早期的視聽語音識別研究到最近對語言和視覺模型的興趣激增,多模態(tài)機(jī)器學(xué)習(xí)是一個充滿活力的多學(xué)科領(lǐng)域,其重要性日益增加,具有非凡的潛力。
? ? ? ? ?早期的深度學(xué)習(xí)算法專注于從一個單一的數(shù)據(jù)源訓(xùn)練其模型。例如,看—基于圖像訓(xùn)練的CV模型和基于文本訓(xùn)練的NLP模型,聽—基于聲學(xué)模型的喚醒詞檢測、噪音消除的語音處理。早期的深度學(xué)習(xí)與單模態(tài)人工智能有關(guān),其結(jié)果都被映射到一個單一的數(shù)據(jù)類型來源。而多模態(tài)人工智能是計(jì)算機(jī)視覺和交互式人工智能智能模型的最終融合,為計(jì)算器提供更接近于人類感知的場景。
? ? ? ? ?多模態(tài)學(xué)習(xí)成為當(dāng)中的重要趨勢,它可以被應(yīng)用在歸一、表示、轉(zhuǎn)化、翻譯、對齊、融合及協(xié)同學(xué)習(xí)上(representation/translation/alignment/fusion/co-learning)。按照下游任務(wù)則可以劃分為理解式任務(wù)(視覺問答、視覺推理、圖文檢索等)和生成式任務(wù)(文本生成(對話/故事/詩歌)、圖像生成文本、文字生成圖像等)。
多模態(tài)融合模型的發(fā)展趨勢
? ? ? ? ?Andrew Ng在年度總結(jié)時說道,雖然GPT-3和EfficientNet等單獨(dú)針對文本及圖像等任務(wù)的深度學(xué)習(xí)模型備受矚目,但這一年中最令人印象深刻的還是,AI 模型在發(fā)現(xiàn)文本與圖像間關(guān)系中取得了進(jìn)步。,2021年,OpenAI開啟了多模態(tài)學(xué)習(xí)的重要一年,比如CLIP匹配圖像和文本,Dall·E生成與輸入文本對應(yīng)的圖像。DeepMind的Perceiver IO可以對文本、圖像、視頻和點(diǎn)云進(jìn)行分類。斯坦福大學(xué)的ConVIRT為醫(yī)用X射線圖像添加了文本標(biāo)簽。
? ? ? ? ?現(xiàn)實(shí)中,圖像和文本其實(shí)非常復(fù)雜,以至于在過去,研究人員只能全神貫注的著重其中之一。在這樣做的過程中,他們開發(fā)了非常不同的技術(shù)。然而,在過去十年中,計(jì)算機(jī)視覺和自然語言處理已經(jīng)融合到神經(jīng)網(wǎng)絡(luò)上,為合并這兩種模式的統(tǒng)一模型打開了大門。
? ? ? ? ?Jeff Dean在長文展望中總結(jié)到,一些最先進(jìn)的多模態(tài)模型可以接受語言、圖像、語言和視頻等多種不同的輸入模態(tài),產(chǎn)生不同的輸出模態(tài)。這是一個令人興奮的方向,就像真實(shí)世界一樣,有些東西在多模態(tài)數(shù)據(jù)中更容易學(xué)習(xí)。例如,閱讀某些東西并觀看圖片,比僅僅閱讀它更有用。
? ? ? ? ?圖像和文本配對有助于多語種檢索任務(wù),并且更好地理解如何配對文本和圖像輸入可以提升圖像描述任務(wù)。視覺和文本數(shù)據(jù)上的協(xié)同訓(xùn)練有助于提升視覺分類任務(wù)的準(zhǔn)確率和穩(wěn)健性,同時圖像、視頻和語音任務(wù)上的聯(lián)合訓(xùn)練能夠提升所有模態(tài)的泛化性能。
? ? ? ? ?目前還無法建立一個通用的“視覺機(jī)器”,無法做到統(tǒng)一模型同時滿足不同場景要求。這意味著當(dāng)下機(jī)器學(xué)習(xí)的訓(xùn)練成本較高,也沒有達(dá)到產(chǎn)業(yè)化應(yīng)用的理想狀態(tài)。要解決這個問題,需要從端到端打通各個模態(tài)之間的關(guān)系,形成可以真正多維度交互的智能機(jī)器,讓感知智能升級為認(rèn)知智能。
? ? ? ? ?未來發(fā)展趨勢,多場景下的多模態(tài)交互成為提升應(yīng)用性能的重點(diǎn)。以多模態(tài)融合技術(shù)為核心的感知、交互和智慧協(xié)同能力,不斷支撐各類終端和應(yīng)用的智能化水平提升。人工智能正在從語音、文字、視覺等單模態(tài)智能,向著多種模態(tài)融合發(fā)展,結(jié)合分布式平臺的計(jì)算能力,實(shí)現(xiàn)更高精度的場景構(gòu)建,和對動態(tài)場景的處理能力。
? ? ? ? ?未百度研究院認(rèn)為,下一步是跨模態(tài)統(tǒng)一建模,增強(qiáng)模型的跨模態(tài)語義對齊能力。Jeff Dean認(rèn)為,所有這些趨勢都指向了訓(xùn)練能力更強(qiáng)的通用性模型,這些模型可以處理多種數(shù)據(jù)模態(tài)并解決數(shù)千甚至數(shù)萬個任務(wù)。在接下來的幾年,我們將通過下一代架構(gòu) Pathways 來追求這一愿景,并期望在該領(lǐng)域看到實(shí)質(zhì)性進(jìn)展。
參考文章
Top AI Stories of 2021: Transformers Take Over, Models Balloon, Multimodal AI Takes Off, Governments Crack Down - The Batch | DeepLearning.AI
Jeff Dean長文展望:2021年之后,機(jī)器學(xué)習(xí)領(lǐng)域的五大潛力趨勢
多模態(tài)常見應(yīng)用分類
1、按照模態(tài)分類
| 模態(tài)分類 | 子分類 |
| Language-Audio | (1.1)、Text-to-Speech Synthesis: 給定文本生成對應(yīng)的聲音 (1.2)、Audio Captioning:給定一段語音,生成一句話總結(jié)并描述主要內(nèi)容。(不是語音識別) |
| Vision-Audio | (2.1)、Audio-Visual Speech Recognition(視聽語音識別):給定某人的視頻及語音進(jìn)行語音識別。 (2.2)、Video Sound Separation(視頻聲源分離):給定視頻和聲音信號(包含多個聲源),進(jìn)行聲源定位與分離。 (2.3)、Image Generation from Audio: 給定聲音,生成與其相關(guān)的圖像。 (2.4)、Speech-conditioned Face generation:給定一段話,生成說話人的視頻。 (2.5)、Audio-Driven 3D Facial Animation:給定一段話與3D人臉模版,生成說話的人臉3D動畫。 |
| Vision-Language | (3.1)、Image/Video-Text Retrieval (圖(視頻)文檢索): 圖像/視頻<-->文本的相互檢索。 (3.2)、Image/Video Captioning(圖像/視頻描述):給定一個圖像/視頻,生成文本描述其主要內(nèi)容。 (3.3)、Visual Question Answering(視覺問答):給定一個圖像/視頻與一個問題,預(yù)測答案。 (3.4)、Image/Video Generation from Text:給定文本,生成相應(yīng)的圖像或視頻。 (3.5)、Multimodal Machine Translation:給定一種語言的文本與該文本對應(yīng)的圖像,翻譯為另外一種語言。 (3.6)、Vision-and-Language Navigation(視覺-語言導(dǎo)航): 給定自然語言進(jìn)行指導(dǎo),使得智能體根據(jù)視覺傳感器導(dǎo)航到特定的目標(biāo)。 (3.7)、Multimodal Dialog(多模態(tài)對話): 給定圖像,歷史對話,以及與圖像相關(guān)的問題,預(yù)測該問題的回答。 |
2、按照功能分類
| 模態(tài)分類 | 子分類 |
| 定位相關(guān) | (1.1)、Visual Grounding:給定一個圖像與一段文本,定位到文本所描述的物體。 (1.2)、Temporal Language Localization: 給定一個視頻即一段文本,定位到文本所描述的動作(預(yù)測起止時間)。 (1.3)、Video Summarization from text query:給定一段話(query)與一個視頻,根據(jù)這段話的內(nèi)容進(jìn)行視頻摘要,預(yù)測視頻關(guān)鍵幀(或關(guān)鍵片段)組合為一個短的摘要視頻。 (1.4)、Video Segmentation from Natural Language Query: 給定一段話(query)與一個視頻,分割得到query所指示的物體。 (1.5)、Video-Language Inference: 給定視頻(包括視頻的一些字幕信息),還有一段文本假設(shè)(hypothesis),判斷二者是否存在語義蘊(yùn)含(二分類),即判斷視頻內(nèi)容是否包含這段文本的語義。 (1.6)、Object Tracking from Natural Language Query: 給定一段視頻和一些文本,進(jìn)行定位匹配。 (1.7)、Language-guided Image/Video Editing: 一句話自動修圖。給定一段指令(文本),自動進(jìn)行圖像/視頻的編輯。 |
| 情感分析相關(guān) | Affect Computing (情感計(jì)算):使用語音、視覺(人臉表情)、文本信息、心電、腦電等模態(tài)進(jìn)行情感識別。 |
| 其它 | Medical Image:不同醫(yī)療圖像模態(tài)如CT、MRI、PET RGB-D模態(tài):RGB圖與深度圖 |
參考文章:多模態(tài)學(xué)習(xí)綜述及最新方向 - 知乎
多模態(tài)模型案例
| 時間 | 發(fā)明者 | 模型名稱 | 功能 |
| 2021年1月 | OpenAI | CLIP&DALL-E | 功能:
原理:在眾多圖像-文本對上,訓(xùn)練大規(guī)模自回歸 transformer 可以通過文本 prompt 產(chǎn)生具有可控結(jié)果的高保真生成模型。 例如,當(dāng)文本描述為 " 一個甜甜圈形狀的時鐘 " 被發(fā)送到該模型時,它就可以生成以下圖像。 用“大白話”精準(zhǔn)搜圖,OpenAI的CLIP驚艷了所有人 | 在線可玩_量子位-CSDN博客 ?意義: (1)、開啟了2021年多模態(tài)學(xué)習(xí)的新篇章。 (2)、降低了深度學(xué)習(xí)需要的數(shù)據(jù)標(biāo)注量。 (3)、CLIP的zero-shot learning技術(shù)使得在各種數(shù)據(jù)集上的表現(xiàn)都很好(包括沒見過的數(shù)據(jù)集)。 |
| 2021年5月 | | MUM | 功能:多任務(wù)統(tǒng)一模型 原理:通過從 75 種不同語言中挖掘出的上下文信息對用戶搜索結(jié)果進(jìn)行優(yōu)先排序。 |
| 2021年9月 | 百度 | DocVQA | 功能:文檔理解,跨模態(tài)文檔理解模型ERNIE-Layout。 意義:登頂DocVQA榜首 |
| 2021年11月 | NVIDIA | GauGAN2 | 功能:根據(jù)輸入的文本/簡筆畫生成對應(yīng)逼真的風(fēng)景圖、輸入圖像并編輯部分內(nèi)容。 原理:它在一個單一的模型中結(jié)合了分割映射、修復(fù)和文本到圖像的生成,使其成為一個強(qiáng)大的多模態(tài)工具。 意義:可以用文字和圖畫的混合來創(chuàng)造逼真的藝術(shù)。 Demo:AI Demos | NVIDIA Research |
| 2021年11月 | Microsoft | NüWA女媧 | 功能:實(shí)現(xiàn)文本/草圖轉(zhuǎn)圖像、圖像補(bǔ)全、文字指示修改圖像/視頻、文字/草圖轉(zhuǎn)視頻、視頻預(yù)測等任務(wù),功能異常強(qiáng)大。 意義:在8種包含圖像和視頻處理的下游視覺任務(wù)上具有出色的合成效果。 |
| 2021年12月 | NVIDIA | PoE GAN | 功能:文字描述、圖像分割、草圖、風(fēng)格都可以轉(zhuǎn)化為圖片,它還可以同時接受以上幾種輸入模態(tài)的任意兩種組合,這便是PoE的含義。 原理:生成器使用全局PoE-Net將不同類型輸入的變化混合起來。鑒別器中,作者提出了一種多模態(tài)投影鑒別器,將投影鑒別器推廣到處理多個條件輸入。 意義:PoE可以在單模態(tài)輸入、多模態(tài)輸入甚至無輸入時生成圖片。當(dāng)使用單個輸入模態(tài)進(jìn)行測試時,PoE-GAN的表現(xiàn)優(yōu)于之前專門為該模態(tài)設(shè)計(jì)的SOTA方法。 |
| 2022年1月 | 百度 | ERNIE-ViLG | 功能:圖文雙向生成。 原理:它通過自回歸算法將圖像生成和文本生成統(tǒng)一建模,實(shí)現(xiàn)文圖雙向生成。 意義:文心 ERNIE-ViLG 參數(shù)規(guī)模達(dá)到 100 億,是目前為止全球最大規(guī)模中文跨模態(tài)生成模型。刷新文本生成圖像、圖像描述等多個跨模態(tài)生成任務(wù)最好效果。 Demo: 文心大模型-產(chǎn)業(yè)級知識增強(qiáng)大模型 |
| 2022年1月 | Facebook | AV-HuBERT | 功能:這通過輸入語音音頻和唇語視頻兩種不同形式內(nèi)容,輸出對應(yīng)文本。 原理:它是一個多模態(tài)的自監(jiān)督學(xué)習(xí)算法,該模型通過結(jié)合人們說話過程中嘴唇和牙齒活動、語音方面的信息。AV-HuBERT可以捕捉到音頻和視頻間的微妙聯(lián)系。這和人類本身感知語言的模式很相似。 意義:尤其是在嘈雜的環(huán)境下,通過讀唇可以將語言識別的準(zhǔn)確性最高提升6倍。 |
| 2022年1月 | Facebook | data2vec | 功能:應(yīng)用于語音、圖像和文本。 意義:在計(jì)算機(jī)視覺、語音任務(wù)上優(yōu)于最佳單一用途算法,首個適用于多模態(tài)的高性能自監(jiān)督算法,語音、圖像文本全部SOTA。 |
?
相關(guān)文章
嘈雜場景語音識別準(zhǔn)確率怎么提?臉書:看嘴唇
總結(jié)
以上是生活随笔為你收集整理的AI:人工智能的多模态融合模型的简介、发展以及未来趋势的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: NLP:GLUE和SuperGLUE基准
- 下一篇: 成功解决在excel表格中仅在某列内插入