一文詳解多模態認知智能-有解無憂

摘要：多模態認知智能是AI人工智能當前發展的主流趨勢之一，其核心是以多模態知識的獲取，表示與推理為主要內容的跨模態知識工程與認知智能，也是為了更好的處理多模態的資料，需要融合多種感知模態和智能處理技術，

本文分享自華為云社區《GPT-4發布，AIGC時代的多模態還能走多遠？系列之三：多模態認知智能》，作者：碼上開花_Lancer，

上兩篇文章介紹了AIGC未來已來和AIGC的阿克琉斯之踵，了解到AIGC當前的發展趨勢和當前的一些不足之處，接下來給大家介紹AIGC時代的多模態技術的發展，

多模態認知智能是AI人工智能當前發展的主流趨勢之一，其核心是以多模態知識的獲取，表示與推理為主要內容的跨模態知識工程與認知智能，也是為了更好的處理多模態的資料，需要融合多種感知模態和智能處理技術，

01 多模態認知智能：研究框架

多模態認知智能是一種融合多種感知模態和智能處理技術的人工智能，旨在建立更加豐富、靈活和可信賴的人機互動平臺，為此，需要研究一套完整的多模態認知智能研究框架，該框架應包含以下幾個方面：

跨模態搜索：對于用戶輸入的問題或查詢，系統能夠同時從不同型別的媒介（包括文字、圖片、視頻、聲音等）中檢索相關資訊，并將查詢結果進行融合，
跨模態推薦：根據用戶的興趣偏好和歷史行為，系統可以向用戶推薦各種型別的內容，包括文章、音樂、電影、商品等，同時也能夠將推薦內容進行個性化定制，提高用戶的滿意度，
跨模態問答：對于用戶提出的問題，系統能夠通過多種途徑獲取相關資訊并進行自動回答，例如，用戶可以通過文字或語音提出問題，系統會自動識別問題的語意和意圖，并給出答案或建議，
跨模態生成：系統能夠根據用戶需求，自動生成各種型別的內容，包括文本、音頻、視頻、影像等，例如，系統可以根據用戶提供的關鍵詞生成一段語音介紹、一張圖片、一份文章等，
多模態知識應用：系統能夠通過自動學習和知識圖譜等技術，從多種知識源中獲取資訊，并進行多模態應用，例如，系統可以將影像、文本和語音等不同型別的資訊進行鏈接和融合，實作多模態資訊展示和分析，這些組成部分相互交織，形成了一個完整的多模態認知智能研究框架的基礎，在實際應用中，多模態認知智能技術可以應用于各種領域，包括智能客服、智能家居、智能醫療、智能交通等，可以預見的是，未來多模態認知智能技術將會不斷發展，為人類的生產和生活帶來更多的便利和創新，

（多模態認知智能研究框架，圖片來自網路）

02 多模態認知智能：兩種實作路徑

我們明白多模態認知智能研究框架以后，對于多模態認知智能，它是怎么樣實作的呢？

多模態大模型是一種連接主義和經驗主義相結合的實作路徑，它的核心思想是利用海量預訓練資料來構建一個大規模的神經網路模型，能夠自動學習和提取多模態資料中的特征和關系，并實作對多種語言、影像、音頻等多種形式的資訊進行聯合理解，該方法具有概率關聯、簡單魯棒等優點，但在學習邏輯關系等方面仍有局限性，多模態知識工程則是一種符號主義的實作路徑，主要依賴專家系統和知識圖譜等手段，通過對精選資料和專家知識的整合和轉化，將其轉換成符號知識，實作對多模態資料的決議和分析，該方法具有易推理、可控、可干預、可解釋等特點，但在資訊損失方面存在一定的問題，綜合來看，多模態大模型和多模態知識工程各有優缺點，需要根據應用場景和需求進行選擇和設計，在未來的研究中，我們需要進一步探索如何更好地結合兩種實作路徑，充分利用它們各自的優勢，實作多模態認知智能的高效、準確和可解釋性，資料轉換成符號知識的程序往往伴隨著巨大的資訊損失，隱性知識、難以表達的知識是損失資訊中的主體, 在AIGC大模型時代，多模態知識工程依然不可或缺，

（以上圖來自網路）

03 多模態知識圖譜（MMKG）：兩種主流形式

多模態知識工程中有一種常用的方法是利用知識圖譜，這種方法被稱為多模態知識圖譜（MMKG），與傳統知識圖譜不同，MMKG以多模態資料作為源頭，從多方面描述物體和關系，構建出一個可以跨越多模態的知識體系，在MMKG中，多模態資料不僅僅作為文字符號物體的關聯屬性存在，還可以作為圖譜中的物體存在，可與現有物體發生廣泛關聯， MMKG的優勢在于它能夠消除多模態資料的異構性，將它們有機地結合在一起，使得系統能夠實作對多模態資料的更加全面和深入的理解，同時，MMKG也能夠提高資料的可發現性和可重用性，使得資料共享變得更加容易，

在實際應用中，例如，假設你需要在家里搭建一套智能家居系統，這個系統需要支持語音控制、自動化定時等多種功能，那么，在建設程序中，MMKG就可以幫助系統對運作環境、設備狀態、用戶需求等方面的多模態資料進行綜合分析和優化，從而提高系統的智能性、可靠性和適應性，另一個具有代表性的例子是醫療領域的智能輔助診斷系統，這類系統會收集包括醫學影像、實驗室檢查、文本記錄等形式的多模態資料，利用MMKG進行知識關聯、特征提取和預測策略優化等任務，通過這種方式，系統可以在醫生與病人之間架起一座智能化的橋梁，讓醫療決策變得更加全面、準確和科學，

（以上圖片來自文章X. Zhu, Z. Li et. al. Multi-Modal Knowledge Graph Construction and Application: A Survey, Accepted by TKDE in Dec. 2022）

MMKG已經被應用于多個領域，包括自然語言處理、計算機視覺、語音識別等，例如，在自然語言處理領域，MMKG可以將不同形式的語言資訊連接起來，實作對文本、圖片和音頻內容的跨越式認知和分析；在計算機視覺領域，MMKG可以將影像和視頻資料與其他領域的知識相結合，獲得更具深度和復雜性的認知結果，未來，隨著各種智能設備的普及和多模態資料的日益增長，MMKG必將成為實作多模態認知智能的一個重要手段，我們需要進一步完善MMKG的理論框架和技術體系，在構建更加豐富和高效的多模態知識圖譜的基礎上，實作對多模態資料的更加準確和深刻的認知，推動人工智能技術的不斷發展和應用，總之，在多模態資料處理和應用方面，MMKG可以大大增強系統的認知和決策能力，實作人機互動的更加智能化和自然化，同時也可以促進各領域應用場景的創新和發展，

（以上圖片來自文章《X. Zhu, Z. Li et. al. Multi-Modal Knowledge Graph Construction and Application: A Survey, Accepted by TKDE in Dec. 2022》）

04 AIGC多模態大模型VS大規模多模態知識圖譜

在當前的自然語言處理領域中，多模態大模型和多模態知識圖譜都有各自的優缺點，多模態大模型具有關聯推理強、可適應多任務、人工成本低、適應能力強等優點，但其可靠程度低、知識推理能力弱、可解釋性不足、訓練成本高等不足之處也不容忽視，而多模態知識圖譜則具有專業可信度高、可解釋性強、可拓展性好等優點，但其推理能力弱、人工成本高、架構調整難等不足之處也同樣存在，針對這些不足之處，目前的研究方向主要包括以下幾個方面：

提升模型可靠性：當前研究團隊正在發掘不同模態的資料之間的潛在關系，并通過改進模型的結構和演算法等方式提高其預測的準確率，從而提升模型的可靠程度，
強化知識推理能力：加強模型對知識的學習和推理能力，使其能夠對資料背后的知識進行更深入的挖掘和分析，實作真正意義上的知識推理，
提升可解釋性：通過增強模型的可解釋性來提高其通用性和實用性，幫助人類理解和解釋模型的預測結果，
優化訓練成本：通過改進演算法和并行計算技術等方式降低訓練成本，提高模型的訓練效率和穩定性，
自動化知識圖譜構建：通過自動化抽取和建模技術來降低構建多模態知識圖譜的人工成本，提升其可擴展性和實用性，

當前階段，大模型與知識圖譜仍應繼續保持競合關系，互相幫助，互為補充，未來的研究方向將集中在如何充分利用多模態資料，提高模型的可靠性、推理能力和可解釋性，降低訓練成本和構建成本，實作更加精準和智能的自然語言處理，那AIGC多模態大模型在多模態知識圖譜的實際場景是怎么的呢？請期待我的下一篇文章GPT-4發布，AIGC時代的多模態還能走多遠？系列之四 AIGC for MMKG，

參考：

部分內容參考來自復旦大學教授李直旭《AIGC時代的多模態知識工程思考與展望》

論文：《Google’s PaLM-E is a generalist robot brain that takes commands》

《X. Zhu, Z. Li et. al. Multi-Modal Knowledge Graph Construction and Application: A Survey, Accepted by TKDE in Dec. 2022

http://arxiv.org/abs/2206.14268 和http://arxiv.org/abs/2212.05767

點擊關注，第一時間了解華為云新鮮技術~

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/551309.html

標籤：其他

上一篇：04-1 氣體燃料燃燒：擴散火焰與預混火焰、層流火焰傳播速度

下一篇：返回列表