主頁 >  其他 > AI:人工智能的多模態融合模型的簡介、發展以及未來趨勢

AI:人工智能的多模態融合模型的簡介、發展以及未來趨勢

2022-02-21 07:24:21 其他

AI:人工智能的多模態融合模型的簡介、發展以及未來趨勢

目錄

人工智能的多模態融合模型的簡介、發展以及未來趨勢

多模態融合模型的簡介

多模態融合模型的發展趨勢

多模態常見應用分類

1、按照模態分類

2、按照功能分類

多模態模型案例


相關文章
Paper:《Multimodal Machine Learning: A Survey and Taxonomy,多模態機器學習:綜述與分類》翻譯與解讀

人工智能的多模態融合模型的簡介、發展以及未來趨勢

多模態融合模型的簡介

" 模態 "(Modality)是德國理學家赫爾姆霍茨提出的一種生物學概念,即生物憑借感知器官經驗接收資訊通道,如人類有視覺、聽覺、觸覺、味覺和嗅覺模態,多模態是指將多種感官進行融合,而多模態互動是指人通過聲音、肢體語言、資訊載體(文字、圖片、音頻、視頻)、環境等多個通道與計算機進行交流,充分模擬人與人之間的互動方式
每一種資訊的來源或者形式,都可以稱為一種模態,例如,人有觸覺,聽覺,視覺,嗅覺;資訊的媒介,有語音、視頻、文字等;多種多樣的傳感器,如雷達、紅外、加速度計等,以上的每一種都可以稱為一種模態,
不同模態(例如影像、文本、音頻)中學習的方式存在很大差異
為了讓人工智能理解我們周圍的世界方面取得進展,它需要能夠解釋推理關于多模態資訊,多模態機器學習旨在建立能夠處理和關聯來自多種模態資訊的模型,從早期的視聽語音識別研究到最近對語言和視覺模型的興趣激增,多模態機器學習是一個充滿活力的多學科領域,其重要性日益增加,具有非凡的潛力,
早期的深度學習演算法專注于從一個單一的資料源訓練其模型,例如,看—基于影像訓練的CV模型和基于文本訓練的NLP模型,聽—基于聲學模型的喚醒詞檢測、噪音消除的語音處理,早期的深度學習與單模態人工智能有關,其結果都被映射到一個單一的資料型別來源,而多模態人工智能是計算機視覺和互動式人工智能智能模型的最終融合,為計算器提供更接近于人類感知的場景
多模態學習成為當中的重要趨勢,它可以被應用在歸一、表示、轉化、翻譯、對齊、融合協同學習上(representation/translation/alignment/fusion/co-learning),按照下游任務則可以劃分為理解式任務(視覺問答、視覺推理、圖文檢索等)和生成式任務(文本生成(對話/故事/詩歌)、影像生成文本、文字生成影像等),

多模態融合模型的發展趨勢

Andrew Ng在年度總結時說道,雖然GPT-3EfficientNet等單獨針對文本及影像等任務的深度學習模型備受矚目,但這一年中最令人印象深刻的還是,AI 模型在發現文本與影像間關系中取得了進步,,2021年,OpenAI開啟了多模態學習的重要一年,比如CLIP匹配影像和文本,Dall·E生成與輸入文本對應的影像,DeepMind的Perceiver IO可以對文本、影像、視頻和點云進行分類,斯坦福大學的ConVIRT為醫用X射線影像添加了文本標簽
現實中,影像和文本其實非常復雜,以至于在過去,研究人員只能全神貫注的著重其中之一,在這樣做的程序中,他們開發了非常不同的技術,然而,在過去十年中,計算機視覺和自然語言處理已經融合到神經網路上,為合并這兩種模式的統一模型打開了大門
Jeff Dean在長文展望中總結到,一些最先進的多模態模型可以接受語言、影像、語言和視頻等多種不同的輸入模態,產生不同的輸出模態,這是一個令人興奮的方向,就像真實世界一樣,有些東西在多模態資料中更容易學習,例如,閱讀某些東西并觀看圖片,比僅僅閱讀它更有用,
影像和文本配對有助于多語種檢索任務,并且更好地理解如何配對文本和影像輸入可以提升影像描述任務,視覺和文本資料上的協同訓練有助于提升視覺分類任務的準確率和穩健性,同時影像、視頻和語音任務上的聯合訓練能夠提升所有模態的泛化性能
目前還無法建立一個通用的“視徑訓器”,無法做到統一模型同時滿足不同場景要求,這意味著當下機器學習的訓練成本較高,也沒有達到產業化應用的理想狀態,要解決這個問題,需要從端到端打通各個模態之間的關系,形成可以真正多維度互動的智能機器,讓感知智能升級為認知智能
未來發展趨勢,多場景下的多模態互動成為提升應用性能的重點,以多模態融合技術為核心的感知、互動和智慧協同能力,不斷支撐各類終端和應用的智能化水平提升,人工智能正在從語音、文字、視覺等單模態智能,向著多種模態融合發展,結合分布式平臺的計算能力,實作更高精度的場景構建,和對動態場景的處理能力,
未百度研究院認為,下一步是跨模態統一建模,增強模型的跨模態語意對齊能力,Jeff Dean認為,所有這些趨勢都指向了訓練能力更強的通用性模型,這些模型可以處理多種資料模態并解決數千甚至數萬個任務,在接下來的幾年,我們將通過下一代架構 Pathways 來追求這一愿景,并期望在該領域看到實質性進展,

參考文章

Top AI Stories of 2021: Transformers Take Over, Models Balloon, Multimodal AI Takes Off, Governments Crack Down - The Batch | DeepLearning.AI

Jeff Dean長文展望:2021年之后,機器學習領域的五大潛力趨勢

多模態常見應用分類

1、按照模態分類

模態分類

子分類

Language-Audio

(1.1)、Text-to-Speech Synthesis: 給定文本生成對應的聲音

(1.2)、Audio Captioning:給定一段語音,生成一句話總結并描述主要內容,(不是語音識別)

Vision-Audio

(2.1)、Audio-Visual Speech Recognition(視聽語音識別):給定某人的視頻及語音進行語音識別,

(2.2)、Video Sound Separation(視頻聲源分離):給定視頻和聲音信號(包含多個聲源),進行聲源定位與分離,

(2.3)、Image Generation from Audio: 給定聲音,生成與其相關的影像,

(2.4)、Speech-conditioned Face generation:給定一段話,生成說話人的視頻,

(2.5)、Audio-Driven 3D Facial Animation:給定一段話與3D人臉模版,生成說話的人臉3D影片,

Vision-Language

(3.1)、Image/Video-Text Retrieval (圖(視頻)文檢索): 影像/視頻<-->文本的相互檢索,

(3.2)、Image/Video Captioning(影像/視頻描述):給定一個影像/視頻,生成文本描述其主要內容,

(3.3)、Visual Question Answering(視覺問答):給定一個影像/視頻與一個問題,預測答案,

(3.4)、Image/Video Generation from Text:給定文本,生成相應的影像或視頻,

(3.5)、Multimodal Machine Translation:給定一種語言的文本與該文本對應的影像,翻譯為另外一種語言,

(3.6)、Vision-and-Language Navigation(視覺-語言導航): 給定自然語言進行指導,使得智能體根據視覺傳感器導航到特定的目標,

(3.7)、Multimodal Dialog(多模態對話): 給定影像,歷史對話,以及與影像相關的問題,預測該問題的回答,

2、按照功能分類

模態分類

子分類

定位相關

(1.1)、Visual Grounding:給定一個影像與一段文本,定位到文本所描述的物體,

(1.2)、Temporal Language Localization: 給定一個視頻即一段文本,定位到文本所描述的動作(預測起止時間),

(1.3)、Video Summarization from text query:給定一段話(query)與一個視頻,根據這段話的內容進行視頻摘要,預測視頻關鍵幀(或關鍵片段)組合為一個短的摘要視頻,

(1.4)、Video Segmentation from Natural Language Query: 給定一段話(query)與一個視頻,分割得到query所指示的物體,

(1.5)、Video-Language Inference: 給定視頻(包括視頻的一些字幕資訊),還有一段文本假設(hypothesis),判斷二者是否存在語意蘊含(二分類),即判斷視頻內容是否包含這段文本的語意,

(1.6)、Object Tracking from Natural Language Query: 給定一段視頻和一些文本,進行定位匹配,

(1.7)、Language-guided Image/Video Editing: 一句話自動修圖,給定一段指令(文本),自動進行影像/視頻的編輯,

情感分析相關

Affect Computing (情感計算):使用語音、視覺(人臉表情)、文本資訊、心電、腦電等模態進行情感識別,

其它

Medical Image:不同醫療影像模態如CT、MRI、PET

RGB-D模態:RGB圖與深度圖

參考文章:多模態學習綜述及最新方向 - 知乎

多模態模型案例

時間

發明者

模型名稱

功能

2021年1月

OpenAI

CLIP—DALL-E

功能:以文搜圖,按照文字描述去生成對應圖片,使用藝術家薩爾瓦多 - 達利和皮克斯的瓦力的諧音來命名

但是,發布之后,有研究發現 CLIP 存在種族和性別偏見問題,

原理:在眾多影像-文本對上,訓練大規模自回歸 transformer 可以通過文本 prompt 產生具有可控結果的高保真生成模型,

例如,當文本描述為 " 一個甜甜圈形狀的時鐘 " 被發送到該模型時,它就可以生成以下影像,

用“大白話”精準搜圖,OpenAI的CLIP驚艷了所有人 | 在線可玩_量子位-CSDN博客

意義

(1)、開啟了2021年多模態學習的新篇章

(2)、降低了深度學習需要的資料標注量,

(3)、CLIP的zero-shot learning技術使得在各種資料集上的表現都很好(包括沒見過的資料集),

2021年5月

Google

MUM

功能:多任務統一模型

原理:通過從 75 種不同語言中挖掘出的背景關系資訊對用戶搜索結果進行優先排序,

2021年9月

百度

DocVQA

功能:檔案理解,跨模態檔案理解模型ERNIE-Layout,

意義:登頂DocVQA榜首

2021年11月

NVIDIA

GauGAN2

功能:根據輸入的文本/簡筆畫生成對應逼真的風景圖、輸入影像并編輯部分內容,

原理:它在一個單一的模型中結合了分割映射、修復和文本到影像的生成,使其成為一個強大的多模態工具,

意義:可以用文字和圖畫的混合來創造逼真的藝術,

Demo:AI Demos | NVIDIA Research

2021年11月

Microsoft&北大

NüWA女媧

功能:實作文本/草圖轉影像、影像補全、文字指示修改影像/視頻、文字/草圖轉視頻、視頻預測等任務,功能例外強大,

意義:在8種包含影像和視頻處理的下游視覺任務上具有出色的合成效果,

2021年12月

NVIDIA

PoE GAN

功能:文字描述、影像分割、草圖、風格都可以轉化為圖片,它還可以同時接受以上幾種輸入模態的任意兩種組合,這便是PoE的含義,

原理:生成器使用全域PoE-Net將不同型別輸入的變化混合起來,鑒別器中,作者提出了一種多模態投影鑒別器,將投影鑒別器推廣到處理多個條件輸入,

意義:PoE可以在單模態輸入、多模態輸入甚至無輸入時生成圖片,當使用單個輸入模態進行測驗時,PoE-GAN的表現優于之前專門為該模態設計的SOTA方法,

2022年1月

百度

ERNIE-ViLG

功能:圖文雙向生成,

原理:它通過自回歸演算法將影像生成和文本生成統一建模,實作文圖雙向生成,

意義:文心 ERNIE-ViLG 引數規模達到 100 億,是目前為止全球最大規模中文跨模態生成模型,重繪文本生成影像、影像描述等多個跨模態生成任務最好效果,

Demo:

文心大模型-產業級知識增強大模型

2022年1月

Facebook&Meta

AV-HuBERT

功能:這通過輸入語音音頻和唇語視頻兩種不同形式內容,輸出對應文本,

原理:它是一個多模態的自監督學習演算法,該模型通過結合人們說話程序中嘴唇和牙齒活動、語音方面的資訊,AV-HuBERT可以捕捉到音頻和視頻間的微妙聯系,這和人類本身感知語言的模式很相似,

意義:尤其是在嘈雜的環境下,通過讀唇可以將語言識別的準確性最高提升6倍

2022年1月

Facebook&Meta

data2vec

功能:應用于語音、影像和文本,

意義:在計算機視覺、語音任務上優于最佳單一用途演算法,首個適用于多模態的高性能自監督演算法,語音、影像文本全部SOTA,

相關文章

嘈雜場景語音識別準確率怎么提?臉書:看嘴唇

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/429288.html

標籤:AI

上一篇:[半監督學習] Deep Co-Training for Semi-Supervised Image Recognition

下一篇:太驚艷,用 Python 繪制谷愛凌的卡通動漫形象真棒啊

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more