多模態(tài)大模型MLLM通常由三部分組成:
- 視覺編碼器,可以是CLIP、SigLIP、DINO等,采用的結(jié)構(gòu)可以是ViT,也可以是傳統(tǒng)的CNN,不過現(xiàn)在主流都是ViT結(jié)構(gòu),本文指的視覺編碼器也是ViT的產(chǎn)出。
- 視覺連接器(Projector),通常是簡單的MLP結(jié)構(gòu),或者Q-Former、Resampler、D-abstractor等復(fù)雜結(jié)構(gòu)。
- 底座LLM,如LLama、Qwen、baichuan等。
對(duì)于被切分為N個(gè)塊的圖片輸入x∈RN×W×H×3,其ViT視覺表征輸出為I∈RN×dI,視覺連接器f(⋅)將視覺表征輸出映射到文本表征空間,記為Q=f(I)∈RM×dT,如果采用的是非壓縮型的連接器,此處的M=N,如果采用的是壓縮型連接器,那么M
不難看出,視覺連接器作為視覺編碼器和底座LLM的連接部分,起著重要的視覺語義壓縮和視覺語義抽取的作用。通常來說,視覺連接器從是否進(jìn)行壓縮的角度,可以分為2種:
- 非壓縮型連接器:如LLaVA [3] 中采用的線性連接,只是將視覺表征空間的維度dI映射到文本表征空間dT。
- 壓縮型連接器:典型的如BLIP2中的Q-Former結(jié)構(gòu),其不僅將視覺表征空間的維度dI映射到文本表征空間dT,同時(shí)進(jìn)行了視覺語義令牌數(shù)量的壓縮。
作者將視覺連接器中的信息壓縮和語義轉(zhuǎn)換階段解耦,分別稱之為壓縮(compression)和摘要(abstraction),前者指的是減少視覺令牌數(shù)量,后者則指的是對(duì)視覺語義概念的抽?。ㄈ鐚傩?、實(shí)體等)。
在轉(zhuǎn)入作者分析階段之前,我們直接給出作者在本文的結(jié)論:
- 觀察1: 底座LLM本身可以從原始視覺特征I中進(jìn)行有效的語義提取。
- 觀察2:壓縮型的連接器從視覺塊中提取的視覺語義信息會(huì)存在折損。
- 結(jié)論:Q-Former這種同時(shí)進(jìn)行壓縮和摘要的連接器,由于本身已經(jīng)進(jìn)行了有損的壓縮和摘要,而底座LLM又會(huì)進(jìn)行進(jìn)一步的摘要,會(huì)導(dǎo)致信息損失。
我們主要看下作者是怎么分析的,作者采用了一種稱之為GAE(Generic Attention Explainability)[5] 的可視化工具(在文中作者將其擴(kuò)展成了R-GAE,以適配生成式的LLM模型),用來可視化文本與視覺的關(guān)聯(lián),可以簡單認(rèn)為激活區(qū)域越亮的部分,和文本標(biāo)簽的關(guān)聯(lián)越大。如Fig 1. 所示,作者通過R-GAE工具去跟蹤文本標(biāo)簽與視覺塊之間的關(guān)聯(lián),為了能夠分析出映射后的視覺令牌(projected visual tokens)的作用,作者將其拆解為了Text -> Patch = Text -> Query * Query -> Patch
兩個(gè)過程,如公式(1)所示,這種拆解讓我們可以分別觀察RT→Qt和RQ→It這兩部分的特點(diǎn)。
(1)RT→It=RT→Qt×RQ→It
Fig 1. 將Text-Patch部分拆解為Query-Patch和Text-Query兩個(gè)部分。
如圖Fig 2.所示,我們能看到對(duì)于同一個(gè)文本描述"remote with purple and red buttons"(帶著紫色和紅色按鈕的遙控器),在不同視覺連接器(線性、Q-Former)下的R-GAE可視化結(jié)果。我們分別分析下:
- 對(duì)于線性的連接器,其不具有壓縮的作用,因此視覺令牌數(shù)量維持在了576個(gè)。從Text-Patch的可視化結(jié)果來看,模型主要關(guān)注在了紫色的按鈕上,通過拆解,可以發(fā)現(xiàn)這個(gè)語義提取主要是Text-Query貢獻(xiàn)的,再看到Query-Patch部分沒有明顯的高亮部分,意味著從原始圖像塊(Patch)到視覺令牌(Query)的過程中不存在語義的提取,進(jìn)而也暗示著底座LLM本身具有從圖片塊中直接進(jìn)行視覺語義提取的能力(也就是abstraction能力)。
- 對(duì)于Q-Former,其具有壓縮(compression)的作用,視覺令牌的數(shù)量從576壓縮到了64個(gè)。從Text-Patch的可視化結(jié)果來看,模型的關(guān)注點(diǎn)是錯(cuò)誤的(也即是沒有關(guān)注到紫色和紅色的按鈕上),從拆解的結(jié)果來看,我們觀察到幾個(gè)現(xiàn)象:
- Text-Query部分具有明顯的語義提取過程,在很多圖片部分都存在語義高亮。
- Query-Patch部分中,Query具有64個(gè)視覺令牌,Query-Patch部分放大的結(jié)果來看,存在很多不同Query關(guān)注在了同一個(gè)語義區(qū)域的情況,這導(dǎo)致了信息的冗余和浪費(fèi)。注意到Q-Former是進(jìn)行了信息壓縮的,如果壓縮后還具有比較高的信息冗余,意味著會(huì)損失一些有效信息。
在Text-Query和Query-Patch部分同時(shí)都進(jìn)行了視覺語義提?。ˋbstraction)的現(xiàn)象,作者稱之為雙重摘要(Double-Abstraction phenomenon)。這種現(xiàn)象來自于Q-Former這東西同時(shí)考慮了信息壓縮和信息摘要,從線性連接器的分析來看,底座LLM是可以對(duì)原始的圖片特征進(jìn)行語義提取的,因此作者認(rèn)為一個(gè)“合格”的視覺連接器,只需要進(jìn)行信息的有效壓縮就足夠了。
Fig 2. 觀察不同視覺連接器下的R-GAE情況。
基于以上的分析和啟發(fā),作者使用了最簡單的自適應(yīng)平均池化作為視覺連接器,如Fig 3.所示,顯然這種連接器具有信息壓縮的能力(會(huì)壓縮視覺令牌的數(shù)量),而且平均池化對(duì)比Q-Former,不具有語義提取的能力,從而避免了作者提到的雙重摘要的問題。此時(shí),平均池化只作為信息壓縮器,而底座LLM則負(fù)責(zé)提取語義。其R-GAE的可視化結(jié)果如Fig 2.所示,從中能發(fā)現(xiàn)query-patch部分,query提供了更加豐富多樣的視覺信息,而text-query則能正確提取語義。
Fig 3. 采用簡單的自適應(yīng)平均池化作為視覺連接器,只是進(jìn)行信息壓縮,而不嘗試進(jìn)行視覺語義信息提取。
作者設(shè)計(jì)了一些實(shí)驗(yàn),驗(yàn)證采用平均池化作為視覺壓縮器的效果,如Fig 4所示,其中的Linear是沒進(jìn)行壓縮的實(shí)驗(yàn)(#V=576 tokens),而#V=144的則是進(jìn)行了壓縮的,能發(fā)現(xiàn)對(duì)比主流的壓縮器(Q-Former、C-Abstractor和D-Abstractor),DeCo在多個(gè)基準(zhǔn)集合上存在效果的優(yōu)勢(shì)。作者也進(jìn)行了進(jìn)一步的實(shí)驗(yàn),通過組合不同的視覺編碼器、底座LLM和輸入圖像分辨率,如Fig 5.所示,作者發(fā)現(xiàn)對(duì)比C-Abstractor,平均池化(AvgPool)在多個(gè)基準(zhǔn)測(cè)試中具有一致的優(yōu)勢(shì)。
Fig 4. 對(duì)比Linear(無壓縮)和其他壓縮器的效果,DeCo有一定的優(yōu)勢(shì)。
Fig 5. C-Abstractor和平均池化,在不同視覺編碼器和底座LLM、輸入圖像分辨率組合下的效果對(duì)比,能發(fā)現(xiàn)采用平均池化具有一致的優(yōu)勢(shì)趨勢(shì)。
作者還進(jìn)行了一個(gè)試驗(yàn),逐步提高壓縮視覺token的數(shù)量,也即是減少視覺信息的壓縮率,如Fig 6.所示,我們會(huì)發(fā)現(xiàn)幾點(diǎn):
- 隨著壓縮率的減少,輸入的視覺token數(shù)量會(huì)提高,無論采用的何種視覺連接器,效果總是提高的。
- 當(dāng)壓縮能力減少到?jīng)]有的情況下,輸入的視覺token數(shù)量等于原始視覺編碼器提供的視覺token數(shù)量,此時(shí)采用不同的連接器效果是相當(dāng)接近的。
- 在高壓縮的情況下,如576->144, 平均池化連接器具有較大的優(yōu)勢(shì)。
- 筆者覺得有點(diǎn)奇怪的是,在576->256這個(gè)地方,C-Abstractor存在一個(gè)明顯的性能下降,這一點(diǎn)有點(diǎn)說不過去?
Fig 6. 隨著視覺token數(shù)量的增加(也即是視覺連接器的壓縮能力減少),其效果總是提高的,而采用不同的連接器的效果最終都會(huì)趨于相同的點(diǎn)。
筆者讀下來,一個(gè)比較重要的啟示就是,多模態(tài)大模型中的視覺連接器的作用,其實(shí)是可以劃分為信息壓縮和語義摘要的,而底座LLM本身就是語義摘要的好手,因此視覺連接器,似乎只需要做好保真且高效的信息壓縮就可以了,盡量不要讓它具有過多的語義提取能力,而Q-Former的設(shè)計(jì)就具有了很強(qiáng)的語義提取能力,導(dǎo)致其效果并沒有很好。這個(gè)對(duì)于我們?cè)O(shè)計(jì)多模態(tài)大模型,也是一個(gè)很值得參考的結(jié)論。
Reference
[1]. Li, Junnan, Dongxu Li, Silvio Savarese, and Steven Hoi. "Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models." In International conference on machine learning, pp. 19730-19742. PMLR, 2023. aka BLIP2
[2]. Yao, Linli, Lei Li, Shuhuai Ren, Lean Wang, Yuanxin Liu, Xu Sun, and Lu Hou. "DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models." arXiv preprint arXiv:2405.20985 (2024). aka DeCo
[3]. Liu, Haotian, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. "Visual instruction tuning." Advances in neural information processing systems 36 (2024). aka LLaVA
[4]. Lin, Ji, Hongxu Yin, Wei Ping, Pavlo Molchanov, Mohammad Shoeybi, and Song Han. "Vila: On pre-training for visual language models." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 26689-26699. 2024. aka VILA
[5]. H. Chefer, S. Gur, and L. Wolf. Generic attention-model explainability for interpreting bi-modal and encoder-decoder transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 397–406, 2021 aka GAE