之前我們介紹過(guò)BLIP2模型[1],其特點(diǎn)是采用Q-Former的方式在LLM中融合了多模態(tài)視覺(jué)信息,其中的learnable query可視為是一種軟提示詞(soft prompt)。如Fig 1. (b)所示,在整個(gè)BLIP2體系下,筆者個(gè)人認(rèn)為可視為用學(xué)習(xí)出來(lái)的learnable query結(jié)合Q-Former,提煉出視覺(jué)表達(dá),而這個(gè)視覺(jué)表達(dá)可視為也是一種軟提示詞,對(duì)參數(shù)固定的LLM進(jìn)行提示,從而在LLM中融入多模態(tài)視覺(jué)信息。因此這個(gè)learnable query作為一種弱提示詞是否學(xué)習(xí)得足夠好,是影響后續(xù)MLLM表現(xiàn)的一個(gè)關(guān)鍵性因素之一。
在BLIP2中的視覺(jué)特征提取是指令無(wú)關(guān)的,也即是Q-Former無(wú)法感知到不同指令的區(qū)別,在不同指令下都只能產(chǎn)出相同的視覺(jué)特征,這一點(diǎn)對(duì)一些細(xì)粒度的指令需求非常不友好。舉例來(lái)說(shuō),一張圖片的信息量是很豐富的,而人類(lèi)在某次對(duì)話中的指令則可能只聚焦在這圖片中的某個(gè)層面的細(xì)節(jié)上,如Fig 2所示,一個(gè)指令去請(qǐng)求模型回答名畫(huà)的作者亦或是名畫(huà)的作畫(huà)細(xì)節(jié),對(duì)圖片視覺(jué)特征提取的要求是截然不同的,如果Q-Former無(wú)法對(duì)不同的指令進(jìn)行感知,那么其提取出來(lái)的視覺(jué)特征則很難保證其能很好地滿足指令的需求。instructBLIP在這個(gè)思考下,對(duì)Q-Former進(jìn)行了改造使得其產(chǎn)出的視覺(jué)特征對(duì)指令敏感,如Fig 1 (a)所示,具體來(lái)說(shuō)就是令Q-Former的learnable query同時(shí)配合指令進(jìn)行輸入,而learnable query和instruction之間通過(guò)自注意力機(jī)制進(jìn)行關(guān)聯(lián),這樣能保證提取的視覺(jué)特征具有一定的指令敏感性,這個(gè)思路可謂是相當(dāng)直接。
Fig 1. InstructBLIP中采用的指令微調(diào)敏感的Q-Former結(jié)構(gòu) vs BLIP2中采用的指令無(wú)關(guān)Q-Former設(shè)計(jì)。
Fig 2. 對(duì)視覺(jué)的不同需求,會(huì)對(duì)提取出來(lái)的視覺(jué)特征有著不同的粒度要求。
當(dāng)然,為了引入更好的指令微調(diào)能力,不可避免地需要收集更大范圍的指令微調(diào)數(shù)據(jù),在instructBLIP中,作者匯總了包含了11個(gè)任務(wù)類(lèi)別的26個(gè)數(shù)據(jù)集,如Fig 3所示,其中的LLaVa-Instruct-150k則是來(lái)自于工作[3]。為了進(jìn)行更準(zhǔn)確的任務(wù)遷移能力測(cè)試,作者對(duì)這26個(gè)數(shù)據(jù)集進(jìn)行了留內(nèi)集(held-on set)和留外集(held-out set)的劃分(留內(nèi)集會(huì)參與訓(xùn)練,而留外集則作為任務(wù)遷移能力的測(cè)試,不參與訓(xùn)練),這個(gè)劃分有一些考慮:
任務(wù)粒度的劃分: 作者按照任務(wù)粒度進(jìn)行劃分,其中visual reasoning、visual conversation QA、video question answering和image classification任務(wù)上都是作為留外集數(shù)據(jù)集內(nèi)部的劃分:在以上提到的其他任務(wù)種類(lèi)上,則在任務(wù)本身內(nèi)進(jìn)行劃分,如image captioning上就將4個(gè)數(shù)據(jù)集劃分為了2個(gè)留內(nèi)集和2個(gè)留外集。因此整個(gè)訓(xùn)練&測(cè)試的流程為:
在被劃分為留內(nèi)集的數(shù)據(jù)集本身的訓(xùn)練集中進(jìn)行指令微調(diào),然后通過(guò)這些留內(nèi)集的驗(yàn)證集或者測(cè)試集進(jìn)行留內(nèi)驗(yàn)證(held-in evaluation)。在留外驗(yàn)證(held-out evaluation)中,根據(jù)我們剛才的數(shù)據(jù)劃分,有兩種類(lèi)型:數(shù)據(jù)集未被模型使用,但是有相同任務(wù)的數(shù)據(jù)集參與了訓(xùn)練數(shù)據(jù)集未被模型使用,同時(shí)也無(wú)相同任務(wù)的數(shù)據(jù)集參與了訓(xùn)練注意到這些數(shù)據(jù)集本身可能并不是為了指令微調(diào)設(shè)計(jì)的(除了llava-instruct-150k),因此需要構(gòu)建一些提示詞模版(prompt template),在原文中作者構(gòu)建了10到15個(gè)指令提示詞模版,如下所示。注意到一些公開(kāi)數(shù)據(jù)集中更青睞于短回答,因此在模版構(gòu)建中使用了類(lèi)似于"short"或者"briefly"的字眼去減少模型總是生成短答案的風(fēng)險(xiǎn),當(dāng)然更好的方法還是應(yīng)該去收集一些長(zhǎng)答案的訓(xùn)練集,筆者覺(jué)得也許通過(guò)GPT4去擴(kuò)展/修正短回答也是一種可行的思路?
由于訓(xùn)練集混合了多種數(shù)據(jù)來(lái)源,每個(gè)數(shù)據(jù)集的尺度都差別很大,如果均勻混在一起進(jìn)行訓(xùn)練,在訓(xùn)練一定數(shù)量的token情況下,模型會(huì)見(jiàn)更多次小規(guī)模數(shù)據(jù)集,這導(dǎo)致模型容易傾向于小數(shù)據(jù)集的任務(wù),而忽略大規(guī)模數(shù)據(jù)集的任務(wù)。為了解決這種問(wèn)題,作者提出采用數(shù)據(jù)集規(guī)模的方式進(jìn)行采樣,假設(shè)D DD個(gè)數(shù)據(jù)集的尺寸為,那么第d 個(gè)訓(xùn)練集的采樣概率則為
。為了減少某些特定任務(wù)數(shù)據(jù)集帶來(lái)的風(fēng)險(xiǎn),比如A-OKVQA (是一個(gè)多選擇的問(wèn)答任務(wù))就需要手動(dòng)降低權(quán)重,而會(huì)手動(dòng)調(diào)高OKVQA數(shù)據(jù)集的權(quán)重。
Fig 3. instructBLIP中的指令數(shù)據(jù)集中采用的原始26個(gè)數(shù)據(jù)集和其屬于的不同任務(wù)類(lèi)型分類(lèi)。
其中黃色框表示保留集,白色框表示留外集。在訓(xùn)練過(guò)程中,作者采用BLIP2的checkpoint作為熱啟,固定了LLM底座和圖片編碼器,只微調(diào)Q-Former的參數(shù),從動(dòng)機(jī)上看,就是想要通過(guò)引入指令敏感的能力提高軟提示詞的效果。作者首先進(jìn)行了模型zero-shot能力的測(cè)試,如Fig 4所示,在留外集上進(jìn)行測(cè)試的結(jié)果驗(yàn)證了instructBLIP的領(lǐng)先性,而且在所有測(cè)試集上的提升均不少。
Fig 4. instructBLIP在zero-shot任務(wù)上(留外集)的能力表現(xiàn)。
作者對(duì)文中提到的指令敏感Q-Former的引入、指令微調(diào)、數(shù)據(jù)平衡等方式進(jìn)行了消融實(shí)現(xiàn)。首先看到指令微調(diào)和多任務(wù)訓(xùn)練方式的對(duì)比,在多任務(wù)訓(xùn)練方式中,數(shù)據(jù)不進(jìn)行指令模版的格式化,如Fig 5所示,我們可以發(fā)現(xiàn)無(wú)論是多任務(wù)還是指令微調(diào)方式,都在留內(nèi)集上表現(xiàn)接近,這意味著這兩種方式都有同樣的輸入模式學(xué)習(xí)效果。但是在留外集上指令微調(diào)方式明顯優(yōu)于多任務(wù)學(xué)習(xí)方式,而后者表現(xiàn)與BLIP2基線接近,這意味著指令微調(diào)這種方式是加強(qiáng)LLM模型的zero-shot通用能力的關(guān)鍵。
Fig 5. 指令微調(diào)方式和多任務(wù)訓(xùn)練方式在留內(nèi)集和留外集的平均效果對(duì)比。
如Fig 6所示,作者在不同的LLM底座(FlanT5和Vicuna-7B)下,進(jìn)行了去除指令敏感Q-Former和數(shù)據(jù)均衡策略的消融試驗(yàn),試驗(yàn)證明這兩者對(duì)性能的提升都是關(guān)鍵性的,其中指令敏感Q-Former的去除,在依賴(lài)于空間視覺(jué)推斷的ScienceQA和時(shí)間視覺(jué)推斷的iVQA任務(wù)上性能損失最大,這意味著引入指令敏感Q-Former模塊的確能夠提取更適合該指令下的圖像視覺(jué)特征。
Fig 6. 對(duì)指令敏感的Q-Former模塊引入和數(shù)據(jù)均衡方式的消融試驗(yàn)。
總得來(lái)看,本文的貢獻(xiàn)點(diǎn)主要是:
針對(duì)圖文多模態(tài)的指令微調(diào)任務(wù),設(shè)計(jì)了指令敏感的Q-Former模塊,可以提取指令敏感的視覺(jué)特征。針對(duì)圖文多模態(tài)的指令微調(diào)任務(wù),收集了一個(gè)由多個(gè)公開(kāi)數(shù)據(jù)集組成的指令微調(diào)數(shù)據(jù)集。采用一種數(shù)據(jù)均衡方式協(xié)調(diào)了數(shù)據(jù)集中的尺度大小不一的問(wèn)題,提高了訓(xùn)練穩(wěn)定性。
Reference
[1]. https://blog.csdn.net/LoseInVain/article/details/136013909, 《BLIP2——采用Q-Former融合視覺(jué)語(yǔ)義與LLM能力的方法》
[2]. Dai, Wenliang, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale N. Fung, and Steven Hoi. “Instructblip: Towards general-purpose vision-language models with instruction tuning.” Advances in Neural Information Processing Systems 36 (2024). aka InstructBLIP
[3]. Liu, Haotian, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. “Visual instruction tuning.” Advances in neural information processing systems 36 (2024). aka llava