AI：人工智能的多模態融合模型的簡介、發展以及未來趨勢

人工智能的多模態融合模型的簡介、發展以及未來趨勢

多模態融合模型的簡介

多模態融合模型的發展趨勢

多模態常見應用分類

1、按照模態分類

2、按照功能分類

多模態模型案例

相關文章：
Paper：《Multimodal Machine Learning: A Survey and Taxonomy，多模態機器學習:綜述與分類》翻譯與解讀

人工智能的多模態融合模型的簡介、發展以及未來趨勢

多模態融合模型的簡介

" 模態 "（Modality）是德國理學家赫爾姆霍茨提出的一種生物學概念，即生物憑借感知器官與經驗來接收資訊的通道，如人類有視覺、聽覺、觸覺、味覺和嗅覺模態，多模態是指將多種感官進行融合，而多模態互動是指人通過聲音、肢體語言、資訊載體（文字、圖片、音頻、視頻）、環境等多個通道與計算機進行交流，充分模擬人與人之間的互動方式，
每一種資訊的來源或者形式，都可以稱為一種模態，例如，人有觸覺，聽覺，視覺，嗅覺；資訊的媒介，有語音、視頻、文字等；多種多樣的傳感器，如雷達、紅外、加速度計等，以上的每一種都可以稱為一種模態，
不同模態（例如影像、文本、音頻）中學習的方式存在很大差異，
為了讓人工智能在理解我們周圍的世界方面取得進展，它需要能夠解釋和推理關于多模態資訊，多模態機器學習旨在建立能夠處理和關聯來自多種模態資訊的模型，從早期的視聽語音識別研究到最近對語言和視覺模型的興趣激增，多模態機器學習是一個充滿活力的多學科領域，其重要性日益增加，具有非凡的潛力，
早期的深度學習演算法專注于從一個單一的資料源訓練其模型，例如，看—基于影像訓練的CV模型和基于文本訓練的NLP模型，聽—基于聲學模型的喚醒詞檢測、噪音消除的語音處理，早期的深度學習與單模態人工智能有關，其結果都被映射到一個單一的資料型別來源，而多模態人工智能是計算機視覺和互動式人工智能智能模型的最終融合，為計算器提供更接近于人類感知的場景，
多模態學習成為當中的重要趨勢，它可以被應用在歸一、表示、轉化、翻譯、對齊、融合及協同學習上(representation/translation/alignment/fusion/co-learning)，按照下游任務則可以劃分為理解式任務(視覺問答、視覺推理、圖文檢索等)和生成式任務(文本生成(對話/故事/詩歌)、影像生成文本、文字生成影像等)，

多模態融合模型的發展趨勢

Andrew Ng在年度總結時說道，雖然GPT-3和EfficientNet等單獨針對文本及影像等任務的深度學習模型備受矚目，但這一年中最令人印象深刻的還是，AI 模型在發現文本與影像間關系中取得了進步，，2021年，OpenAI開啟了多模態學習的重要一年，比如CLIP匹配影像和文本，Dall·E生成與輸入文本對應的影像，DeepMind的Perceiver IO可以對文本、影像、視頻和點云進行分類，斯坦福大學的ConVIRT為醫用X射線影像添加了文本標簽，
現實中，影像和文本其實非常復雜，以至于在過去，研究人員只能全神貫注的著重其中之一，在這樣做的程序中，他們開發了非常不同的技術，然而，在過去十年中，計算機視覺和自然語言處理已經融合到神經網路上，為合并這兩種模式的統一模型打開了大門，
Jeff Dean在長文展望中總結到，一些最先進的多模態模型可以接受語言、影像、語言和視頻等多種不同的輸入模態，產生不同的輸出模態，這是一個令人興奮的方向，就像真實世界一樣，有些東西在多模態資料中更容易學習，例如，閱讀某些東西并觀看圖片，比僅僅閱讀它更有用，
影像和文本配對有助于多語種檢索任務，并且更好地理解如何配對文本和影像輸入可以提升影像描述任務，視覺和文本資料上的協同訓練有助于提升視覺分類任務的準確率和穩健性，同時影像、視頻和語音任務上的聯合訓練能夠提升所有模態的泛化性能，
目前還無法建立一個通用的“視徑訓器”，無法做到統一模型同時滿足不同場景要求，這意味著當下機器學習的訓練成本較高，也沒有達到產業化應用的理想狀態，要解決這個問題，需要從端到端打通各個模態之間的關系，形成可以真正多維度互動的智能機器，讓感知智能升級為認知智能，
未來發展趨勢，多場景下的多模態互動成為提升應用性能的重點，以多模態融合技術為核心的感知、互動和智慧協同能力，不斷支撐各類終端和應用的智能化水平提升，人工智能正在從語音、文字、視覺等單模態智能，向著多種模態融合發展，結合分布式平臺的計算能力，實作更高精度的場景構建，和對動態場景的處理能力，
未百度研究院認為，下一步是跨模態統一建模，增強模型的跨模態語意對齊能力，Jeff Dean認為，所有這些趨勢都指向了訓練能力更強的通用性模型，這些模型可以處理多種資料模態并解決數千甚至數萬個任務，在接下來的幾年，我們將通過下一代架構 Pathways 來追求這一愿景，并期望在該領域看到實質性進展，

參考文章

Top AI Stories of 2021: Transformers Take Over, Models Balloon, Multimodal AI Takes Off, Governments Crack Down - The Batch | DeepLearning.AI

Jeff Dean長文展望：2021年之后，機器學習領域的五大潛力趨勢

多模態常見應用分類

1、按照模態分類

模態分類

子分類

Language-Audio

(1.1)、Text-to-Speech Synthesis: 給定文本生成對應的聲音

(1.2)、Audio Captioning：給定一段語音，生成一句話總結并描述主要內容，(不是語音識別)

Vision-Audio

(2.1)、Audio-Visual Speech Recognition(視聽語音識別)：給定某人的視頻及語音進行語音識別，

(2.2)、Video Sound Separation(視頻聲源分離)：給定視頻和聲音信號(包含多個聲源)，進行聲源定位與分離，

(2.3)、Image Generation from Audio: 給定聲音，生成與其相關的影像，

(2.4)、Speech-conditioned Face generation：給定一段話，生成說話人的視頻，

(2.5)、Audio-Driven 3D Facial Animation：給定一段話與3D人臉模版，生成說話的人臉3D影片，

Vision-Language

(3.1)、Image/Video-Text Retrieval (圖(視頻)文檢索): 影像/視頻<-->文本的相互檢索，

(3.2)、Image/Video Captioning(影像/視頻描述)：給定一個影像/視頻，生成文本描述其主要內容，

(3.3)、Visual Question Answering(視覺問答)：給定一個影像/視頻與一個問題，預測答案，

(3.4)、Image/Video Generation from Text：給定文本，生成相應的影像或視頻，

(3.5)、Multimodal Machine Translation：給定一種語言的文本與該文本對應的影像，翻譯為另外一種語言，

(3.6)、Vision-and-Language Navigation(視覺-語言導航)：給定自然語言進行指導，使得智能體根據視覺傳感器導航到特定的目標，

(3.7)、Multimodal Dialog(多模態對話)：給定影像，歷史對話，以及與影像相關的問題，預測該問題的回答，

2、按照功能分類

模態分類	子分類
定位相關	(1.1)、Visual Grounding：給定一個影像與一段文本，定位到文本所描述的物體， (1.2)、Temporal Language Localization: 給定一個視頻即一段文本，定位到文本所描述的動作(預測起止時間)， (1.3)、Video Summarization from text query：給定一段話(query)與一個視頻，根據這段話的內容進行視頻摘要，預測視頻關鍵幀(或關鍵片段)組合為一個短的摘要視頻， (1.4)、Video Segmentation from Natural Language Query: 給定一段話(query)與一個視頻，分割得到query所指示的物體， (1.5)、Video-Language Inference: 給定視頻(包括視頻的一些字幕資訊)，還有一段文本假設(hypothesis)，判斷二者是否存在語意蘊含(二分類)，即判斷視頻內容是否包含這段文本的語意， (1.6)、Object Tracking from Natural Language Query: 給定一段視頻和一些文本，進行定位匹配， (1.7)、Language-guided Image/Video Editing: 一句話自動修圖，給定一段指令(文本)，自動進行影像/視頻的編輯，
情感分析相關	Affect Computing (情感計算)：使用語音、視覺(人臉表情)、文本資訊、心電、腦電等模態進行情感識別，
其它	Medical Image：不同醫療影像模態如CT、MRI、PET RGB-D模態：RGB圖與深度圖

參考文章：多模態學習綜述及最新方向 - 知乎

多模態模型案例

時間	發明者	模型名稱	功能
2021年1月	OpenAI	CLIP—DALL-E	功能：以文搜圖，按照文字描述去生成對應圖片，使用藝術家薩爾瓦多 - 達利和皮克斯的瓦力的諧音來命名但是，發布之后，有研究發現 CLIP 存在種族和性別偏見問題，原理：在眾多影像-文本對上，訓練大規模自回歸 transformer 可以通過文本 prompt 產生具有可控結果的高保真生成模型，例如，當文本描述為 " 一個甜甜圈形狀的時鐘 " 被發送到該模型時，它就可以生成以下影像，用“大白話”精準搜圖，OpenAI的CLIP驚艷了所有人 \| 在線可玩_量子位-CSDN博客意義： (1)、開啟了2021年多模態學習的新篇章， (2)、降低了深度學習需要的資料標注量， (3)、CLIP的zero-shot learning技術使得在各種資料集上的表現都很好（包括沒見過的資料集），
2021年5月	Google	MUM	功能：多任務統一模型原理：通過從 75 種不同語言中挖掘出的背景關系資訊對用戶搜索結果進行優先排序，
2021年9月	百度	DocVQA	功能：檔案理解，跨模態檔案理解模型ERNIE-Layout，意義：登頂DocVQA榜首
2021年11月	NVIDIA	GauGAN2	功能：根據輸入的文本/簡筆畫生成對應逼真的風景圖、輸入影像并編輯部分內容，原理：它在一個單一的模型中結合了分割映射、修復和文本到影像的生成，使其成為一個強大的多模態工具，意義：可以用文字和圖畫的混合來創造逼真的藝術， Demo：AI Demos \| NVIDIA Research
2021年11月	Microsoft&北大	NüWA女媧	功能：實作文本/草圖轉影像、影像補全、文字指示修改影像/視頻、文字/草圖轉視頻、視頻預測等任務，功能例外強大，意義：在8種包含影像和視頻處理的下游視覺任務上具有出色的合成效果，
2021年12月	NVIDIA	PoE GAN	功能：文字描述、影像分割、草圖、風格都可以轉化為圖片，它還可以同時接受以上幾種輸入模態的任意兩種組合，這便是PoE的含義，原理：生成器使用全域PoE-Net將不同型別輸入的變化混合起來，鑒別器中，作者提出了一種多模態投影鑒別器，將投影鑒別器推廣到處理多個條件輸入，意義：PoE可以在單模態輸入、多模態輸入甚至無輸入時生成圖片，當使用單個輸入模態進行測驗時，PoE-GAN的表現優于之前專門為該模態設計的SOTA方法，
2022年1月	百度	ERNIE-ViLG	功能：圖文雙向生成，原理：它通過自回歸演算法將影像生成和文本生成統一建模，實作文圖雙向生成，意義：文心 ERNIE-ViLG 引數規模達到 100 億，是目前為止全球最大規模中文跨模態生成模型，重繪文本生成影像、影像描述等多個跨模態生成任務最好效果， Demo：文心大模型-產業級知識增強大模型
2022年1月	Facebook&Meta	AV-HuBERT	功能：這通過輸入語音音頻和唇語視頻兩種不同形式內容，輸出對應文本，原理：它是一個多模態的自監督學習演算法，該模型通過結合人們說話程序中嘴唇和牙齒活動、語音方面的資訊，AV-HuBERT可以捕捉到音頻和視頻間的微妙聯系，這和人類本身感知語言的模式很相似，意義：尤其是在嘈雜的環境下，通過讀唇可以將語言識別的準確性最高提升6倍，
2022年1月	Facebook&Meta	data2vec	功能：應用于語音、影像和文本，意義：在計算機視覺、語音任務上優于最佳單一用途演算法，首個適用于多模態的高性能自監督演算法，語音、影像文本全部SOTA，

相關文章

嘈雜場景語音識別準確率怎么提？臉書：看嘴唇

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/429288.html

標籤：AI

上一篇：[半監督學習] Deep Co-Training for Semi-Supervised Image Recognition

下一篇：太驚艷，用 Python 繪制谷愛凌的卡通動漫形象真棒啊