性无码一区二区三区在线观看,少妇被爽到高潮在线观看,午夜精品一区二区三区,无码中文字幕人妻在线一区二区三区,无码精品国产一区二区三区免费

Alignment與Correspondence,用于量化衡量MLLM中視覺特征的視覺語義對齊與視覺結(jié)構(gòu)程度的方法

多模態(tài)大模型MLLM通常由三部分組成:

  1. 視覺編碼器,可以是CLIP、SigLIP、DINO等
  2. 視覺連接器(Projector),通常是簡單的MLP結(jié)構(gòu)
  3. 底座LLM,如LLamaQwen

對于MLLM而言,視覺特征如同眼睛,負(fù)責(zé)感知外界的視覺信息,底座LLM則如同是大腦,用于分析視覺信息并且進行理解和分析,視覺特征由視覺編碼器提供,通常會考慮采用一個連接器將視覺特征映射到LLM『可以理解』的特征空間。在一些研究中 [2],已經(jīng)證實了只有在結(jié)合不同的視覺編碼器特征(如SigLIP和DINOv2)之后,才能讓MLLM同時具備對高級視覺語義和底層視覺結(jié)構(gòu)理解的能力,視覺編碼器的選用至關(guān)重要,并且如何去組合不同的視覺特征也是值得去探索的問題。然而,當(dāng)前的MLLM訓(xùn)練范式,通常是:

  1. 固定視覺特征和底座LLM,訓(xùn)練視覺連接器的參數(shù)
  2. 然后放開視覺連接器和底座LLM的參數(shù),同時進行訓(xùn)練

這意味著在嘗試挑選不同的視覺編碼器和他們之間的組合的時候,難以避免需要進行大量的LLM訓(xùn)練以搜索到最優(yōu)的視覺編碼器以及組合(搜索空間為k),有沒有一種比較好的方法,可以有效地縮小這個搜索空間呢? 論文 [1] 就是在嘗試解決這個問題!在深入討論本文主題之前,筆者建議讀者可以回顧下博文 《基于CLIP特征的多模態(tài)大模型中的視覺短板問題》[3],總的來說,視覺特征可以分為兩種維度:

  • 視覺語義對齊:視覺特征與文本語義的對齊能力,這個比較容易理解,語義對齊指的就是跨文本和圖像模態(tài),對于同一個概念(比如蘋果、梨子)的共同描述方法,如圖Fig 1所示。具體的定義可見 《視頻與圖片檢索中的多模態(tài)語義匹配模型:原理、啟示、應(yīng)用與展望》[4] 中的介紹。視覺語義對齊能力,是衡量跨模態(tài)的語義度量。這種模型一般采用對比學(xué)習(xí)或者弱監(jiān)督學(xué)習(xí)得到,比如CLIP、SigLIP。
  • 視覺結(jié)構(gòu)對齊:用于衡量建模視覺基礎(chǔ)結(jié)構(gòu)的能力,這樣定義比較抽象,在本文中,作者指的是對于同一個局部的視覺特征,具有語義不變性的表達(dá),如圖Fig 1所示,對于同一個實體(如雛菊)的不同局部信息,提取出來的視覺特征應(yīng)該具有跨圖像的不變性,這個也稱之為圖像的對應(yīng)性(Correspondence)[^1]。視覺結(jié)構(gòu)對齊能力,是衡量同模態(tài)的語義度量。這種模型一般采用自監(jiān)督的方法學(xué)習(xí)得到,比如DINO等。

一個好的視覺特征,應(yīng)該是同時具備這兩種能力的,因此我們需要定量去衡量一個視覺特征的這兩個維度上的能力,并且將這兩個維度的能力值映射到MLLM的下游任務(wù)能力上,那么這兩個維度的能力值,就可以作為一個proxy(代理)去衡量MLLM的下游任務(wù)能力了。作者將視覺語義對齊的打分稱之為Alignment Score(A score), 將視覺基礎(chǔ)結(jié)構(gòu)稱之為Correspondence Score(C score),他們的組合則稱之為AC score,作者發(fā)現(xiàn)AC score和MLLM的下游能力Z之間呈現(xiàn)線性關(guān)系,也就是Z∝f(A,C),其中的f(⋅)為線性函數(shù),這意味著只需要找到AC score最高的k′個視覺特征作為搜索空間即可,而k′<。因此,我們的重點主要是看下作者是怎么計算A score和C score的。

Fig 1. 一個圖片的視覺屬性,可以分為語義對齊和視覺對齊,語義對齊指的是視覺信息與文本語義的跨模態(tài)對齊,視覺對齊指的是視覺結(jié)構(gòu)自身模態(tài)內(nèi)的對齊。通過描述A和C的能力,并且進行一定的組合建模,可以作為代理,和MLLM下游任務(wù)的表現(xiàn)進行關(guān)聯(lián)。

語義對齊能力,需要衡量待評測的視覺特征與標(biāo)準(zhǔn)視覺語義特征之間的距離,標(biāo)準(zhǔn)視覺語義特征作者采用CLIP作為參考,即是公式(1)中的E^iu,其中的i表示第i張圖片,Sc(⋅)為余弦相似度,而公式中的uv則是表示是圖片每個patch的特征(視覺編碼器采用的是ViT),也就是將待評測視覺特征和標(biāo)準(zhǔn)視覺語義特征之間進行細(xì)粒度的匹配,然后取最大值作為整體的匹配程度。整體流程可見Fig 2。

(1)A Score=1n∑i=0nmaxu,vSc(E^i(u),Ei(v))

Fig 2. 在評估待測視覺特征的Alignment Score的時候,將待評測視覺特征和標(biāo)準(zhǔn)視覺語義特征進行細(xì)粒度的匹配,然后取最大值作為整體的匹配結(jié)果,將其視為該圖片的Alignment Score,最后對多張圖片的A Score進行平均則得到最終的待評測視覺特征的A Score。

對于視覺結(jié)構(gòu)對齊而言,我們需要評估待評測視覺特征的局部視覺不變性,因此我們需要成對的圖片對,如 SPair-71k數(shù)據(jù)集,這是一個圖像的語義對應(yīng)點匹配的數(shù)據(jù)集,如Fig 3所示,數(shù)據(jù)集提供了成對的圖片對,會標(biāo)識出語義成對的對應(yīng)點。對于一個關(guān)鍵點真實標(biāo)簽為{p1s,p2s,?,pms},那么對于采用待評測視覺特征的預(yù)測關(guān)鍵點為{p1t,p2t,?,pmt},可以計算其PKG(關(guān)鍵點正確占比),如公式(2)所示,其中的τ為閾值而I(⋅)為指示函數(shù)。這個指標(biāo)表征了待評測視覺特征能夠正確預(yù)測出關(guān)鍵點的能力。

(2)C Score=1m∑i=0mI(||pjt−pjs||2<τ)

作者采用了一個二階線性組合對A Score和C Score進行組合,如公式(3)所示,其中的βij為待學(xué)習(xí)參數(shù)(此處按照作者原文,是6個待學(xué)習(xí)參數(shù),而筆者認(rèn)為此處應(yīng)該是9個待學(xué)習(xí)參數(shù),如公式(3)所示,不知為何作者添加了一個2−i的限制,導(dǎo)致缺少了3個自由度,在A和C打分不一致的情況下,這個二階的AC打分矩陣是不對稱的,不能取上半角矩陣。下文為了保持和論文一致性,將繼續(xù)沿用作者的6個待學(xué)習(xí)參數(shù)的表述),將通過實際觀察到的k′個視覺特征組合的AC Score與采用了這k′個視覺特征的MLLM的下游任務(wù)表現(xiàn)進行擬合學(xué)習(xí)得出。

(3)AC Score=∑i=02∑j=02−iβijAiCj

Fig 3. 如果視覺特征具有良好的局部視覺不變性,那么其特征對于視覺語義一致的局部區(qū)域,應(yīng)該能夠形成匹配。

那么此時的AC Score可以視為是視覺特征在MLLM中下游任務(wù)的表現(xiàn)Z的代理指標(biāo),如果能擬合出一個AC Score和Z的線性關(guān)系,只需要在這個直線上找出能使的AC Score最大化的視覺特征組合,然后進行少量幾次實驗即可找出使得MLLM效果最佳的視覺特征組合。整個管道如Fig 4所示。這個直線,不妨表示為y=Xsw+?,其中Xs∈Rk′×6w∈R6,而?∈Rk′是擬合殘差,y∈Rk′是采樣的k′個視覺特征組合在MLLM下游任務(wù)中的表現(xiàn)。

Fig 4. 采用AC Score對視覺特征進行LLM下游任務(wù)能力預(yù)測的過程。

以上討論了如何量化衡量視覺特征的語義對齊能力和語義結(jié)構(gòu)對齊能力,并且如何綜合這兩個能力二階線性擬合得出一個最終的AC Score的方法。作者在實驗中,對于13個不同的視覺特征組合,在4個視覺benchmark上都進行了LLM下游任務(wù)訓(xùn)練并且得到了下游任務(wù)的指標(biāo),其擬合效果用決定系數(shù)(R2,即是因變量的變量有多少能被自變量解釋)表示,如Fig 5所示,采用了AC Score的擬合能力最好,而只采用A Score或者C Score的效果都會差些,作為對比實驗,作者也采用了擬合13個隨機打分的方法作為基線,從中能發(fā)現(xiàn)AC Score和MLLM的下游模型表現(xiàn),確實存在強的線性關(guān)系。

Fig 5. 對于不同的Score進行擬合,線性回歸中的R^2指標(biāo)的區(qū)別。

大概介紹了整個文章的思路后,筆者想把整個過程串起來給大伙兒講解一遍自己的理解。首先,對于k種可供參考的候選視覺特征組合(如本文中,待候選的視覺特征組合有13種,如下所示)和M個待測試的基準(zhǔn)集合(benchmark),那么理論上,我們需要kM次MLLM的微調(diào)才能挑選出在M個基準(zhǔn)集合里面各自最佳的視覺特征。一個合理的想法是,我們對于第i個基準(zhǔn)集合Di,我們合理地挑選出一個數(shù)量為k′視覺特征組合的子集(k′<),然后只進行k′次微調(diào),就能確定AC Score的代理直線,然后對剩余k−k′個未微調(diào)的組合,尋找性能預(yù)測的最大值即可。理論上,此時僅需要k′M次微調(diào)了。

這樣也引申出一個問題,如何得到盡可能具有更高AC Score的視覺特征候選組合呢,作者提供了兩種思路,如Fig 6所示:

  1. 提高模型輸入圖片的分辨率,如Fig 6的224 -> 336,作者認(rèn)為是相當(dāng)于固定了視覺特征的視覺對齊能力(也就是A Score),提高了視覺結(jié)構(gòu)對齊能力(也就是C Score),從而帶來了AC Score的上升進而提高了LLM下游指標(biāo)。
  2. 進行多種視覺特征的組合,如Fig 6的在DINOv2的基礎(chǔ)上拼接上OpenAI CLIP,作者認(rèn)為這相當(dāng)于固定了模型的視覺結(jié)構(gòu)對齊能力,提高了語義對齊能力,從而帶來了AC Score的上升進而提高了LLM下游指標(biāo)。

Fig 6. 通過提高分辨率(224 -> 336)和進行特征組合的方法,對于MLLM在下游任務(wù)中的性能影響。

當(dāng)然,改變輸入圖片的分辨率,并不是僅僅會影響到C Score,比如CLIP@224和CLIP@336的A Score就不會是1,而這本應(yīng)是1的,因此作者建議最好保持目標(biāo)視覺編碼器和標(biāo)準(zhǔn)視覺語義CLIP的輸入分辨率的一致。這個比較困難,因為通常時候標(biāo)準(zhǔn)視覺語義CLIP的分辨率尺寸是固定的(比如224和336),因此作者同時采用CLIP@224和CLIP@336作為標(biāo)準(zhǔn)視覺語義CLIP,并且通過求平均的方式減少因分辨率不同帶來的C Score耦合影響。

作者同時注意到,相比于基于視覺的基準(zhǔn)數(shù)據(jù)集,AC Score與基于OCR的基準(zhǔn)數(shù)據(jù)集的下游指標(biāo)關(guān)聯(lián)更為弱,這個原因可能來自于當(dāng)前的C Score是采用基于自然圖片的語義匹配數(shù)據(jù)集SPair-71k計算的,如下所示,在衡量非自然圖片(如OCR為主的圖表)的時候,其衡量視覺結(jié)構(gòu)對齊的能力就變差了。

Fig 7. 采用基于自然圖片的語義匹配數(shù)據(jù)集進行計算的C Score,對于非自然圖片(如OCR圖表)的語義結(jié)構(gòu)對齊能力描述具有缺陷。

筆者的讀后感

總的來說,這篇論文解決的問題還是很具有價值的,即是如何高效地給MLLM在某個垂類任務(wù)下,挑選一個最為合適的視覺特征組合。本文采用的方法論是定義出MLLM中需要視覺側(cè)提供的能力的類型,分別是視覺語義對齊能力A和視覺結(jié)構(gòu)對齊能力C,并且思考如何使得AC Score可以正相關(guān)于下游任務(wù)的能力,從而實現(xiàn)采用低代價的代理指標(biāo)AC Score,就能高效地進行下游能力預(yù)測。

本文有兩個指的注意的地方,第一是采用CLIP作為標(biāo)準(zhǔn)視覺語義對齊能力的標(biāo)桿,可能對于能力超過CLIP的視覺模型的能力衡量,有失偏頗,第二是采用SPair-71k進行視覺結(jié)構(gòu)對齊能力的衡量,會遇到對非自然圖片估計C Score有偏的問題。

需要注意的是,對于不同類型的下游任務(wù),理論上公式(3)的βij值都需要重新學(xué)習(xí)的,筆者比較好奇的是,是否有更好地能跨不同任務(wù)的學(xué)習(xí)方式呢?是否有遞進式的學(xué)習(xí)方式呢?

Reference

[1]. Yang, Shijia, Bohan Zhai, Quanzeng You, Jianbo Yuan, Hongxia Yang, and Chenfeng Xu. "Law of Vision Representation in MLLMs." arXiv preprint arXiv:2408.16357 (2024).

[2]. Tong, Shengbang, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, and Saining Xie. "Eyes wide shut? exploring the visual shortcomings of multimodal llms." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 9568-9578. 2024.

[3]. https://blog.csdn.net/LoseInVain/article/details/140233330, 《基于CLIP特征的多模態(tài)大模型中的視覺短板問題》

[4]. https://fesianxu.github.io/2023/03/04/story-of-multimodal-models-20230304/, 《視頻與圖片檢索中的多模態(tài)語義匹配模型:原理、啟示、應(yīng)用與展望》

[5], https://blog.csdn.net/LoseInVain/article/details/102665911, 《立體視覺中的對極幾何——如何更好更快地尋找對應(yīng)點》

[^1]: 本文提到的對應(yīng)點,與傳統(tǒng)視覺任務(wù)中提到的對應(yīng)點是有所區(qū)別的。如博文 [5] 中提到的,在傳統(tǒng)視覺任務(wù)中的對應(yīng)點通常指的是對于同一個物體不同視角下的圖片的同一個關(guān)鍵局部圖片塊的對應(yīng)關(guān)系,而本文提到的對應(yīng)點,則更像是同一個視覺實體的局部視覺語義的聚類關(guān)系,因此不必限制在同一個物體,而是限制在了同一個實體。

聲明:本內(nèi)容為作者獨立觀點,不代表電子星球立場。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴,請聯(lián)系:editor@netbroad.com
覺得內(nèi)容不錯的朋友,別忘了一鍵三連哦!
贊 1
收藏 2
關(guān)注 52
成為作者 賺取收益
全部留言
0/200
成為第一個和作者交流的人吧