性无码一区二区三区在线观看,少妇被爽到高潮在线观看,午夜精品一区二区三区,无码中文字幕人妻在线一区二区三区,无码精品国产一区二区三区免费

徐土豆
認(rèn)證:優(yōu)質(zhì)創(chuàng)作者
所在專題目錄 查看專題
增強(qiáng)型語言模型——走向通用智能的道路?!
【論文極速讀】Prompt Tuning——一種高效的LLM模型下游任務(wù)適配方式
【論文極速讀】EMT——評估多模態(tài)LLM中的災(zāi)難性遺忘問題
LVM,視覺大模型的GPT時刻?
BLIP2——采用Q-Former融合視覺語義與LLM能力的方法
【論文極速讀】Flamingo:一種交織圖文的視覺語言大模型方法
作者動態(tài) 更多
給定計算預(yù)算下的最佳LLM模型尺寸與預(yù)訓(xùn)練數(shù)據(jù)量分配
05-19 09:33
大模型推理時的尺度擴(kuò)展定律
05-18 10:32
世界多胞體與世界模型
05-13 09:42
獎勵模型中的尺度擴(kuò)展定律和獎勵劫持
05-12 08:41
MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果
05-08 09:13

【論文極速讀】EMT——評估多模態(tài)LLM中的災(zāi)難性遺忘問題

災(zāi)難性遺忘(Catastrophic forgetting)是在深度學(xué)習(xí)領(lǐng)域的一個概念,指的是模型在學(xué)習(xí)一個新目標(biāo)的時候,對熱啟模型信息忘卻的一個現(xiàn)象,比如在采用預(yù)訓(xùn)練模型作為熱啟,對模型進(jìn)行微調(diào)導(dǎo)致模型對預(yù)訓(xùn)練模型信息的忘卻。論文[1]報告了在多模態(tài)大規(guī)模語言模型(Multimodal Large Language Model, MLLM)中遇到的災(zāi)難性遺忘現(xiàn)象。通常來說,MLLM的視覺信息部分由視覺編碼器(如ViT、Resnet等)組成,作者在論文中發(fā)現(xiàn)MLLM的圖片分類能力對比原視覺編碼器而言,會出現(xiàn)分類性能的下降,而在對MLLM進(jìn)行微調(diào)后,發(fā)現(xiàn)會出現(xiàn)災(zāi)難性遺忘,作者提出一個稱之為EMT的框架去評估(取名得純純二次元呢:P)。

所謂的EMT(Evaluating MulTimodality),如Fig 1.所示,首先輸入待評估圖片和prompt,讓MLLM去對圖片類別進(jìn)行預(yù)測,由于LLM是生成式模型,其輸出格式具有一定的不可控性,這意味著其預(yù)測輸出和真實label之間可能是語義相同(semantic match)的,但是字面上卻不匹配(lexical mismatch),因此在下游接入另一個LLM(比如GPT 3.5 turbo)進(jìn)行預(yù)測結(jié)果的評估。

Fig 1. EMT的框架示意圖。

通過這種方法,作者評估了LLaVA-7b、LLaVA13b與其視覺編碼器CLIP的性能差異,見Fig 2. (a),同樣的,作者也評估了LENS與openCLIP,InstructBLIP 7b、InstructBLIP 13b與openCLIP性能的差別,在各個圖像分類測試集中結(jié)果繪制成玫瑰圖,如Fig 2.所示。不難發(fā)現(xiàn),絕大部分情況下MLLM的視覺分類能力都弱與其原生采用的視覺編碼器CLIP,只有在ViT-g-14上的CIFAR-10數(shù)據(jù)上有所特殊。當(dāng)然,這個可能和作者采用的prompt也有很大關(guān)系,眾所周知,prompt模板的好壞對LLM的性能影響很大,這一點在之前的博文 [2] 中也曾經(jīng)討論過。

Fig 2. MLLM的視覺分類能力比其采用的圖像編碼器的分類能力更弱。

作者認(rèn)為其性能下降主要有以下三種情況:預(yù)測錯誤(incorrect prediction),內(nèi)部幻覺(intrinsic hallucination),外部幻覺(extrinsic hallucination),如下所示,具體細(xì)節(jié)請參考原論文。

為何會產(chǎn)生性能下降呢?一個直接的想法就是,視覺語義和LLM的文本語義未完全對齊,導(dǎo)致對LLM的提問不能從知識庫中檢索出來(筆者:當(dāng)然也不能排除prompt不合適的原因)。這點容易理解,假如視覺語義和文本語義已經(jīng)對齊,那么對MLLM的提問,其實本質(zhì)上就是在prompt中指定的若干個類別中檢索一個語義最為接近的類別進(jìn)行返回,如果沒對齊,那么就會預(yù)測錯誤,如果LLM沒能充分理解prompt的語義,則會出現(xiàn)幻覺?;谶@種想法,可以對MLLM進(jìn)行微調(diào)以更好地對齊多模語義,或者讓LLM理解prompt語義,這種微調(diào)可以有幾種,比如LoRA,Linear適配,prompt tuning,P-Tuning等,本文作者采用了LoRA和Linear適配。

  1. LoRA,采用Low Rank技術(shù)增加一些低秩矩陣參數(shù),具體可見 [3]。
  2. Linear適配,在視覺編碼向量后新增一個線性投影層,得到作為輸入到MLLM的視覺特征。

如Fig 3.所示,作者用LLaVA 6b和13b在不同數(shù)據(jù)集上進(jìn)行微調(diào)了3個epoch,然后在其他數(shù)據(jù)集上進(jìn)行測試,繪制出玫瑰圖。不難發(fā)現(xiàn)大部分出現(xiàn)了災(zāi)難性遺忘情況(基線為7b-v0和13b-v0),也即是在某個數(shù)據(jù)集上微調(diào)在其他測試集上測試,其結(jié)果甚至遠(yuǎn)遠(yuǎn)低于基線,特別是采用lora微調(diào)的遺忘情況比linear適配的更為嚴(yán)重。由于LoRA會對LLM本身參數(shù)進(jìn)行更新(低秩矩陣參數(shù)也是LLM的一部分),而Linear適配只是對視覺語義和文本語義進(jìn)行對齊,因此猜測是對LLM的不當(dāng)微調(diào)更容易導(dǎo)致幻覺。

Fig 3. LLaVA 6b和13b下微調(diào)了3個epoch,采用LoRA和Linear適配的結(jié)果對比,可以發(fā)現(xiàn)都出現(xiàn)了過擬合情況。

當(dāng)然,3個epoch的微調(diào)可能對于MLLM來說太多了,作者同樣對epoch的數(shù)量進(jìn)行了探索,如Fig 4.所示,(a)是Linear適配而(b)是同時更新Linear適配層和LoRA參數(shù)。有幾點觀察:

  1. 在只對Linear適配層進(jìn)行更新的配置下,少量的微調(diào)(比如一個epoch內(nèi))能幫助視覺和文本語義的對齊。
  2. 采用Linear和LoRA同時更新的結(jié)果,其災(zāi)難性遺忘現(xiàn)象嚴(yán)重,對LLM層參數(shù)的不當(dāng)更新會導(dǎo)致嚴(yán)重的幻覺。
  3. 微調(diào)數(shù)據(jù)集足夠多樣化能夠幫助減緩災(zāi)難性遺忘,這一點可從Fig 4. (a)的在CIFAR 10、CIFAR 100數(shù)據(jù)集上的微調(diào)結(jié)果中看出來。

因此,在期望對MLLM進(jìn)行微調(diào)的時候其下游數(shù)據(jù)集需要進(jìn)行精心設(shè)計,盡可能保證微調(diào)數(shù)據(jù)集的多樣性,并且微調(diào)方式也需要多考慮,盡可能不要碰LLM的原先參數(shù),筆者覺得也許Prompt Tuning會是一個更好的方式,可以結(jié)合Linear適配和Prompt Tuning進(jìn)行微調(diào)的實驗嘗試。我們就當(dāng)LLM通過大規(guī)模的預(yù)訓(xùn)練已經(jīng)語義完備了,MLLM的語義對齊就交給視覺端進(jìn)行吧,其實理論上說,語義對齊這個能力應(yīng)該交給上游的CLIP對比學(xué)習(xí)完成,但是可能出現(xiàn)語義漂移,因此適當(dāng)?shù)南掠稳蝿?wù)語義對齊也是必要的。

Fig 4 采用了不同epoch數(shù)量的測試結(jié)果,同時作者對比了(a)線性適配和(b)同時更新線性適配層和LoRA參數(shù)。

Reference

[1]. Zhai, Yuexiang, et al. "Investigating the Catastrophic Forgetting in Multimodal Large Language Models." arXiv preprint arXiv:2309.10313 (2023).

[2]. https://blog.csdn.net/LoseInVain/article/details/133385359, 《【論文極速讀】Prompt Tuning——一種高效的LLM模型下游任務(wù)適配方式》

[3]. Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021

聲明:本內(nèi)容為作者獨立觀點,不代表電子星球立場。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴,請聯(lián)系:editor@netbroad.com
覺得內(nèi)容不錯的朋友,別忘了一鍵三連哦!
贊 0
收藏 1
關(guān)注 52
成為作者 賺取收益
全部留言
0/200
成為第一個和作者交流的人吧