主頁 >  其他 > 一文詳解多模態認知智能

一文詳解多模態認知智能

2023-04-27 08:05:27 其他

摘要:多模態認知智能是AI人工智能當前發展的主流趨勢之一,其核心是以多模態知識的獲取,表示與推理為主要內容的跨模態知識工程與認知智能,也是為了更好的處理多模態的資料,需要融合多種感知模態和智能處理技術,

本文分享自華為云社區《GPT-4發布,AIGC時代的多模態還能走多遠?系列之三:多模態認知智能》,作者:碼上開花_Lancer,

上兩篇文章介紹了AIGC未來已來和AIGC的阿克琉斯之踵,了解到AIGC當前的發展趨勢和當前的一些不足之處,接下來給大家介紹AIGC時代的多模態技術的發展,

多模態認知智能是AI人工智能當前發展的主流趨勢之一,其核心是以多模態知識的獲取,表示與推理為主要內容的跨模態知識工程與認知智能,也是為了更好的處理多模態的資料,需要融合多種感知模態和智能處理技術,

01 多模態認知智能:研究框架

多模態認知智能是一種融合多種感知模態和智能處理技術的人工智能,旨在建立更加豐富、靈活和可信賴的人機互動平臺,為此,需要研究一套完整的多模態認知智能研究框架,該框架應包含以下幾個方面:

  1. 跨模態搜索:對于用戶輸入的問題或查詢,系統能夠同時從不同型別的媒介(包括文字、圖片、視頻、聲音等)中檢索相關資訊,并將查詢結果進行融合,
  2. 跨模態推薦:根據用戶的興趣偏好和歷史行為,系統可以向用戶推薦各種型別的內容,包括文章、音樂、電影、商品等,同時也能夠將推薦內容進行個性化定制,提高用戶的滿意度,
  3. 跨模態問答:對于用戶提出的問題,系統能夠通過多種途徑獲取相關資訊并進行自動回答,例如,用戶可以通過文字或語音提出問題,系統會自動識別問題的語意和意圖,并給出答案或建議,
  4. 跨模態生成:系統能夠根據用戶需求,自動生成各種型別的內容,包括文本、音頻、視頻、影像等,例如,系統可以根據用戶提供的關鍵詞生成一段語音介紹、一張圖片、一份文章等,
  5. 多模態知識應用:系統能夠通過自動學習和知識圖譜等技術,從多種知識源中獲取資訊,并進行多模態應用,例如,系統可以將影像、文本和語音等不同型別的資訊進行鏈接和融合,實作多模態資訊展示和分析, 這些組成部分相互交織,形成了一個完整的多模態認知智能研究框架的基礎,在實際應用中,多模態認知智能技術可以應用于各種領域,包括智能客服、智能家居、智能醫療、智能交通等,可以預見的是,未來多模態認知智能技術將會不斷發展,為人類的生產和生活帶來更多的便利和創新,

(多模態認知智能研究框架,圖片來自網路)

02 多模態認知智能:兩種實作路徑

我們明白多模態認知智能研究框架以后,對于多模態認知智能,它是怎么樣實作的呢?

多模態大模型是一種連接主義和經驗主義相結合的實作路徑,它的核心思想是利用海量預訓練資料來構建一個大規模的神經網路模型,能夠自動學習和提取多模態資料中的特征和關系,并實作對多種語言、影像、音頻等多種形式的資訊進行聯合理解,該方法具有概率關聯、簡單魯棒等優點,但在學習邏輯關系等方面仍有局限性, 多模態知識工程則是一種符號主義的實作路徑,主要依賴專家系統和知識圖譜等手段,通過對精選資料和專家知識的整合和轉化,將其轉換成符號知識,實作對多模態資料的決議和分析,該方法具有易推理、可控、可干預、可解釋等特點,但在資訊損失方面存在一定的問題, 綜合來看,多模態大模型和多模態知識工程各有優缺點,需要根據應用場景和需求進行選擇和設計,在未來的研究中,我們需要進一步探索如何更好地結合兩種實作路徑,充分利用它們各自的優勢,實作多模態認知智能的高效、準確和可解釋性, 資料轉換成符號知識的程序往往伴隨著巨大的資訊損失,隱性知識、難以表達的知識是損失資訊中的主體, 在AIGC大模型時代,多模態知識工程依然不可或缺,

(以上圖來自網路)

03 多模態知識圖譜(MMKG):兩種主流形式

多模態知識工程中有一種常用的方法是利用知識圖譜,這種方法被稱為多模態知識圖譜(MMKG),與傳統知識圖譜不同,MMKG以多模態資料作為源頭,從多方面描述物體和關系,構建出一個可以跨越多模態的知識體系,在MMKG中,多模態資料不僅僅作為文字符號物體的關聯屬性存在,還可以作為圖譜中的物體存在,可與現有物體發生廣泛關聯, MMKG的優勢在于它能夠消除多模態資料的異構性,將它們有機地結合在一起,使得系統能夠實作對多模態資料的更加全面和深入的理解,同時,MMKG也能夠提高資料的可發現性和可重用性,使得資料共享變得更加容易,

在實際應用中, 例如,假設你需要在家里搭建一套智能家居系統,這個系統需要支持語音控制、自動化定時等多種功能,那么,在建設程序中,MMKG就可以幫助系統對運作環境、設備狀態、用戶需求等方面的多模態資料進行綜合分析和優化,從而提高系統的智能性、可靠性和適應性, 另一個具有代表性的例子是醫療領域的智能輔助診斷系統,這類系統會收集包括醫學影像、實驗室檢查、文本記錄等形式的多模態資料,利用MMKG進行知識關聯、特征提取和預測策略優化等任務,通過這種方式,系統可以在醫生與病人之間架起一座智能化的橋梁,讓醫療決策變得更加全面、準確和科學,

(以上圖片來自文章X. Zhu, Z. Li et. al. Multi-Modal Knowledge Graph Construction and Application: A Survey, Accepted by TKDE in Dec. 2022)

MMKG已經被應用于多個領域,包括自然語言處理、計算機視覺、語音識別等,例如,在自然語言處理領域,MMKG可以將不同形式的語言資訊連接起來,實作對文本、圖片和音頻內容的跨越式認知和分析;在計算機視覺領域,MMKG可以將影像和視頻資料與其他領域的知識相結合,獲得更具深度和復雜性的認知結果, 未來,隨著各種智能設備的普及和多模態資料的日益增長,MMKG必將成為實作多模態認知智能的一個重要手段,我們需要進一步完善MMKG的理論框架和技術體系,在構建更加豐富和高效的多模態知識圖譜的基礎上,實作對多模態資料的更加準確和深刻的認知,推動人工智能技術的不斷發展和應用, 總之,在多模態資料處理和應用方面,MMKG可以大大增強系統的認知和決策能力,實作人機互動的更加智能化和自然化,同時也可以促進各領域應用場景的創新和發展,

(以上圖片來自文章《X. Zhu, Z. Li et. al. Multi-Modal Knowledge Graph Construction and Application: A Survey, Accepted by TKDE in Dec. 2022》)

04 AIGC多模態大模型VS大規模多模態知識圖譜

在當前的自然語言處理領域中,多模態大模型和多模態知識圖譜都有各自的優缺點,多模態大模型具有關聯推理強、可適應多任務、人工成本低、適應能力強等優點,但其可靠程度低、知識推理能力弱、可解釋性不足、訓練成本高等不足之處也不容忽視,而多模態知識圖譜則具有專業可信度高、可解釋性強、可拓展性好等優點,但其推理能力弱、人工成本高、架構調整難等不足之處也同樣存在, 針對這些不足之處,目前的研究方向主要包括以下幾個方面:

  1. 提升模型可靠性:當前研究團隊正在發掘不同模態的資料之間的潛在關系,并通過改進模型的結構和演算法等方式提高其預測的準確率,從而提升模型的可靠程度,
  2. 強化知識推理能力:加強模型對知識的學習和推理能力,使其能夠對資料背后的知識進行更深入的挖掘和分析,實作真正意義上的知識推理,
  3. 提升可解釋性:通過增強模型的可解釋性來提高其通用性和實用性,幫助人類理解和解釋模型的預測結果,
  4. 優化訓練成本:通過改進演算法和并行計算技術等方式降低訓練成本,提高模型的訓練效率和穩定性,
  5. 自動化知識圖譜構建:通過自動化抽取和建模技術來降低構建多模態知識圖譜的人工成本,提升其可擴展性和實用性,

當前階段,大模型與知識圖譜仍應繼續保持競合關系,互相幫助,互為補充,未來的研究方向將集中在如何充分利用多模態資料,提高模型的可靠性、推理能力和可解釋性,降低訓練成本和構建成本,實作更加精準和智能的自然語言處理,那AIGC多模態大模型在多模態知識圖譜的實際場景是怎么的呢?請期待我的下一篇文章GPT-4發布,AIGC時代的多模態還能走多遠?系列之四 AIGC for MMKG,

參考:

部分內容參考來自復旦大學教授李直旭《AIGC時代的多模態知識工程思考與展望》

論文:《Google’s PaLM-E is a generalist robot brain that takes commands》

《X. Zhu, Z. Li et. al. Multi-Modal Knowledge Graph Construction and Application: A Survey, Accepted by TKDE in Dec. 2022

http://arxiv.org/abs/2206.14268 和http://arxiv.org/abs/2212.05767

 

點擊關注,第一時間了解華為云新鮮技術~

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/551305.html

標籤:其他

上一篇:chatgpt介面開發筆記1:completions介面

下一篇:返回列表

標籤雲
其他(158189) Python(38107) JavaScript(25394) Java(18001) C(15217) 區塊鏈(8260) C#(7972) AI(7469) 爪哇(7425) MySQL(7148) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5870) 数组(5741) R(5409) Linux(5329) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4562) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2431) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1960) Web開發(1951) HtmlCss(1927) python-3.x(1918) 弹簧靴(1913) C++(1912) xml(1889) PostgreSQL(1874) .NETCore(1855) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 一文詳解多模態認知智能

    摘要:多模態認知智能是AI人工智能當前發展的主流趨勢之一,其核心是以多模態知識的獲取,表示與推理為主要內容的跨模態知識工程與認知智能,也是為了更好的處理多模態的資料,需要融合多種感知模態和智能處理技術。 本文分享自華為云社區《GPT-4發布,AIGC時代的多模態還能走多遠?系列之三:多模態認知智能》 ......

    uj5u.com 2023-04-27 08:05:27 more
  • chatgpt介面開發筆記1:completions介面

    chatgpt介面開發筆記1:completions介面 個人博客地址: https://note.raokun.top 擁抱ChatGPT,國內訪問網站:https://www.playchat.top 序:寫這一系列文章的動機來源于在部署Chanzhaoyu/**chatgpt-web**專案時 ......

    uj5u.com 2023-04-27 08:05:07 more
  • 【Docker】鏡像制作和管理

    一、Docker鏡像說明 二、基于容器通過 docker commit 手動制作鏡像 1、基于容器手動制作鏡像步驟 1、下載官方系統鏡像 2、基于官方基礎鏡像啟動容器,并進入容器 3、在容器中進行配置操作 3.1、安裝基礎工具 3.2、配置運行環境 3.3、安裝并配置服務 3.4、存放業務程式代碼 ......

    uj5u.com 2023-04-27 07:59:40 more
  • Nginx常用配置及和基本功能講解

    Nginx已經廣泛應用于J-one和Jdos的環境部署上,本文對Nginx的常用的配置和基本功能進行講解,適合Nginx入門學習。 ......

    uj5u.com 2023-04-27 07:57:56 more
  • 如何在jmeter中把回應中的資料提取出來并參考

    jmeter做介面測驗程序中,經常遇到請求需要用到token的時候,我們可以把回傳token的介面用后置處理器提取出來,但是在這種情況下,只能適用于當前的執行緒組,其他執行緒組無法參考到提取的token變數值,所以必須要生成全域變數讓測驗計劃下的所有執行緒組都可以參考變數。 ......

    uj5u.com 2023-04-27 07:57:17 more
  • 【Excel統計分析插件】上海道寧為您提供統計分析、資料可視化和

    Analyse-it與許多Excel加載項開發人員不同,使用完善的軟體開發和QA實踐,包括單元/集成/系統測驗、敏捷開發、代碼審查、問題跟蹤和用于變更管理的、源代碼控制 ......

    uj5u.com 2023-04-27 07:50:57 more
  • 04-1 氣體燃料燃燒:擴散火焰與預混火焰、層流火焰傳播速度

    擴散火焰與預混火焰的火焰形式 擴散火焰:燃料和訊訓劑邊混合邊燃燒,這時由于擴散作用對燃燒起控制作用,又稱擴散燃燒。 預混火焰:燃料和訊訓劑預先混合好,這時化學動力學因素對燃燒起控制作用,亦稱動力燃燒。 可以看出火焰區別,層流外表面相對光滑,湍流外表面不平整;部分預混火焰有內焰和外焰;全預混火焰不明亮 ......

    uj5u.com 2023-04-27 07:35:19 more
  • 吾日三省吾身|最近反思-2023-04-27

    做專案得出對自我的認知 最近接了一個后臺管理的專案,由于自己身處自由狀態,且很多課很多事情沒有完成,也不知這個專案會不會給自己增加物質上的回饋,本身可能由于處女座吧,又不能直接放手,前幾天很是糾結,覺得自己應該做其他更重要的事。昨天想放棄了,但是又不能直接撒手不管,那要是直接放棄了,萬一這件事對人家 ......

    uj5u.com 2023-04-27 07:33:03 more
  • 打工人逃不開「單人單崗」

    「閑」到停不下來,「忙」到無事可做! 01 年后開始,研發團隊一直「單人單崗」; 為什么? 就是所謂的追求降本,無非裁員的手段,最終的目的就是讓團隊的人員結構簡化到極致; 雖然符合公司預期,但是與打工人的預期強烈不符; 然而,這不重要; 打工人的難處,老板不一定關心;但是老板的難處,打工人必然被關心 ......

    uj5u.com 2023-04-27 07:32:59 more
  • 讀書筆記丨遠程服務呼叫和RESTful,如何分析和抉擇?

    摘要:相信未來REST規范將會變得更加流行和普及。 本文分享自華為云社區《云原生時代,遠程服務呼叫和RESTful,如何分析和抉擇?》,作者:breakDawn 。 隨著云原生的概念越來越火,服務的架構應該如何發展和演進,成為很多程式員關心的話題。大名鼎鼎的《深入理解java虛擬機》一書作者于21年 ......

    uj5u.com 2023-04-27 07:32:51 more