MultiModal


一、模態(tài)表示

什么是模態(tài)表示(Modal Representation)?

模態(tài)表示是將不同感官或交互方式的數(shù)據(jù)(如文本、圖像、聲音等)轉(zhuǎn)換為計(jì)算機(jī)可理解和處理的形式,以便進(jìn)行后續(xù)的計(jì)算、分析和融合。
文本模態(tài)的表示:文本模態(tài)的表示方法有多種,如獨(dú)熱表示、低維空間表示(如通過神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)得到的轉(zhuǎn)換矩陣將單詞或字映射到語義空間中)、詞袋表示及其衍生出的n-grams詞袋表示等。目前,主流的文本表示方法是預(yù)訓(xùn)練文本模型,如BERT。

視覺模態(tài)的表示:視覺模態(tài)分為圖像模態(tài)和視頻模態(tài)。圖像模態(tài)的表示主要通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)實(shí)現(xiàn),如LeNet-5、AlexNet、VGG、GoogLeNet、ResNet等。視頻模態(tài)的表示則結(jié)合了圖像的空間屬性和時間屬性,通常由CNN和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)或長短時記憶網(wǎng)絡(luò)(LSTM)等模型共同處理。

聲音模態(tài)的表示:聲音模態(tài)的表示通常涉及音頻信號的預(yù)處理、特征提取和表示學(xué)習(xí)等步驟,常用的模型包括深度神經(jīng)網(wǎng)絡(luò)(DNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等。

表征學(xué)習(xí)(Representation Learning)旨在從原始數(shù)據(jù)中自動提取有效特征,形成計(jì)算機(jī)可理解的模態(tài)表示,以保留關(guān)鍵信息并促進(jìn)跨模態(tài)交互與融合。


表征學(xué)習(xí)

什么是多模態(tài)聯(lián)合表示(Joint Representation)?

多模態(tài)聯(lián)合表示是一種將多個模態(tài)(如文本、圖像、聲音等)的信息共同映射到一個統(tǒng)一的多模態(tài)向量空間中的表示方法。

多模態(tài)聯(lián)合表示通過神經(jīng)網(wǎng)絡(luò)、概率圖模型將來自不同模態(tài)的數(shù)據(jù)進(jìn)行融合,生成一個包含多個模態(tài)信息的統(tǒng)一表示。這個表示不僅保留了每個模態(tài)的關(guān)鍵信息,還能夠在不同模態(tài)之間建立聯(lián)系,從而支持跨模態(tài)的任務(wù),如多模態(tài)情感分析、視聽語音識別等。


多模態(tài)表示

什么是多模態(tài)協(xié)同表示(Coordinated Representation)?

多模態(tài)協(xié)同表示是一種將多個模態(tài)的信息分別映射到各自的表示空間,但映射后的向量或表示之間需要滿足一定的相關(guān)性或約束條件的方法。這種方法的核心在于確保不同模態(tài)之間的信息在協(xié)同空間內(nèi)能夠相互協(xié)作,共同優(yōu)化模型的性能。

多模態(tài)表示

二、多模態(tài)融合

什么是多模態(tài)融合(MultiModal Fusion)?

多模態(tài)融合能夠充分利用不同模態(tài)之間的互補(bǔ)性,它將抽取自不同模態(tài)的信息整合成一個穩(wěn)定的多模態(tài)表征。從數(shù)據(jù)處理的層次角度將多模態(tài)融合分為數(shù)據(jù)級融合、特征級融合和目標(biāo)級融合。


多模態(tài)融合
1.數(shù)據(jù)級融合(Data-Level Fusion):

數(shù)據(jù)級融合,也稱為像素級融合或原始數(shù)據(jù)融合,是在最底層的數(shù)據(jù)級別上進(jìn)行融合。這種融合方式通常發(fā)生在數(shù)據(jù)預(yù)處理階段,即將來自不同模態(tài)的原始數(shù)據(jù)直接合并或疊加在一起,形成一個新的數(shù)據(jù)集。

應(yīng)用場景:適用于那些原始數(shù)據(jù)之間具有高度相關(guān)性和互補(bǔ)性的情況,如圖像和深度圖的融合。

2.特征級融合(Feature-Level Fusion):

特征級融合是在特征提取之后、決策之前進(jìn)行的融合。不同模態(tài)的數(shù)據(jù)首先被分別處理,提取出各自的特征表示,然后將這些特征表示在某一特征層上進(jìn)行融合。

應(yīng)用場景:廣泛應(yīng)用于圖像分類、語音識別、情感分析等多模態(tài)任務(wù)中。

3.目標(biāo)級融合(Decision-Level Fusion):

目標(biāo)級融合,也稱為決策級融合或后期融合,是在各個單模態(tài)模型分別做出決策之后進(jìn)行的融合。每個模態(tài)的模型首先獨(dú)立地處理數(shù)據(jù)并給出自己的預(yù)測結(jié)果(如分類標(biāo)簽、回歸值等),然后將這些預(yù)測結(jié)果進(jìn)行整合以得到最終的決策結(jié)果。

應(yīng)用場景:適用于那些需要綜合考慮多個獨(dú)立模型預(yù)測結(jié)果的場景,如多傳感器數(shù)據(jù)融合、多專家意見綜合等。


多模態(tài)融合


三、跨模態(tài)對齊

什么是跨模態(tài)對齊(MultiModal Alignment)?

跨模態(tài)對齊是通過各種技術(shù)手段,實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)(如圖像、文本、音頻等)在特征、語義或表示層面上的匹配與對應(yīng)。跨模態(tài)對齊主要分為兩大類:顯式對齊和隱式對齊。


跨模態(tài)對齊

什么是顯示對齊(Explicit Alignment)?

直接建立不同模態(tài)之間的對應(yīng)關(guān)系,包括無監(jiān)督對齊和監(jiān)督對齊。
1.無監(jiān)督對齊:利用數(shù)據(jù)本身的統(tǒng)計(jì)特性或結(jié)構(gòu)信息,無需額外標(biāo)簽,自動發(fā)現(xiàn)不同模態(tài)間的對應(yīng)關(guān)系。
CCA(典型相關(guān)分析):通過最大化兩組變量之間的相關(guān)性來發(fā)現(xiàn)它們之間的線性關(guān)系,常用于圖像和文本的無監(jiān)督對齊。

自編碼器:通過編碼-解碼結(jié)構(gòu)學(xué)習(xí)數(shù)據(jù)的低維表示,有時結(jié)合循環(huán)一致性損失(Cycle Consistency Loss)來實(shí)現(xiàn)無監(jiān)督的圖像-文本對齊。

2.監(jiān)督對齊:利用額外的標(biāo)簽或監(jiān)督信息指導(dǎo)對齊過程,確保對齊的準(zhǔn)確性。
多模態(tài)嵌入模型:如DeViSE(Deep Visual-Semantic Embeddings),通過最大化圖像和對應(yīng)文本標(biāo)簽在嵌入空間中的相似度來實(shí)現(xiàn)監(jiān)督對齊。

多任務(wù)學(xué)習(xí)模型:同時學(xué)習(xí)圖像分類和文本生成任務(wù),利用共享層或聯(lián)合損失函數(shù)來促進(jìn)圖像和文本之間的監(jiān)督對齊。


顯式對齊
什么是隱式對齊(Implicit Alignment)?不直接建立對應(yīng)關(guān)系,而是通過模型內(nèi)部機(jī)制隱式地實(shí)現(xiàn)跨模態(tài)的對齊。這包括注意力對齊和語義對齊。
1.注意力對齊:通過注意力機(jī)制動態(tài)地生成不同模態(tài)之間的權(quán)重向量,實(shí)現(xiàn)跨模態(tài)信息的加權(quán)融合和對齊。
Transformer模型:在跨模態(tài)任務(wù)中(如圖像描述生成),利用自注意力機(jī)制和編碼器-解碼器結(jié)構(gòu),自動學(xué)習(xí)圖像和文本之間的注意力分布,實(shí)現(xiàn)隱式對齊。

BERT-based模型:在問答系統(tǒng)或文本-圖像檢索中,結(jié)合BERT的預(yù)訓(xùn)練表示和注意力機(jī)制,隱式地對齊文本查詢和圖像內(nèi)容。

2.語義對齊:在語義層面上實(shí)現(xiàn)不同模態(tài)之間的對齊,需要深入理解數(shù)據(jù)的潛在語義聯(lián)系。
圖神經(jīng)網(wǎng)絡(luò)(GNN):在構(gòu)建圖像和文本之間的語義圖時,利用GNN學(xué)習(xí)節(jié)點(diǎn)(模態(tài)數(shù)據(jù))之間的語義關(guān)系,實(shí)現(xiàn)隱式的語義對齊。

預(yù)訓(xùn)練語言模型與視覺模型結(jié)合:如CLIP(Contrastive Language-Image Pre-training),通過對比學(xué)習(xí)在大量圖像-文本對上訓(xùn)練,使模型學(xué)習(xí)到圖像和文本在語義層面上的對應(yīng)關(guān)系,實(shí)現(xiàn)高效的隱式語義對齊。


隱式對齊

文章轉(zhuǎn)自微信公眾號@架構(gòu)師帶你玩轉(zhuǎn)AI

上一篇:

一文徹底搞懂深度學(xué)習(xí)(4)

下一篇:

一文徹底搞懂大模型 - RAG(檢索、增強(qiáng)、生成)
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實(shí)測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費(fèi)

#AI深度推理大模型API

對比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費(fèi)