LVM(Large Vision Models) [1] 自本月1號(hào)掛到arxiv以來,引發(fā)了眾多自媒體的追捧,不乏稱之為『視覺大模型的GPT時(shí)刻』的盛贊,也有不少大V對(duì)此表示持懷疑態(tài)度,這一周一直吃瓜的筆者也非常好奇,想一睹其視覺大模型的GPT風(fēng)采,于是在工作之余抽空簡單翻閱了下,總得來說還是受益匪淺的。LVM的整體思想比較直白,既然NLP領(lǐng)域中,基于自回歸的大模型(如GPT、LLaMA等)已經(jīng)取得令人矚目的成功,何不將視覺的預(yù)訓(xùn)練任務(wù)也統(tǒng)一到自回歸中,也許就能產(chǎn)生和GPT一般的『智能』呢?考慮到NLP中,最小處理單元是token(下文翻譯為『令牌』,tokenization則翻譯為『令牌化』),我們不能以圖片的像素級(jí)別去進(jìn)行自回歸,何不將圖片也進(jìn)行『令牌化』呢?將圖片也轉(zhuǎn)換成一個(gè)個(gè)令牌吧!那么我們就可以用NLP原生的預(yù)訓(xùn)練任務(wù),比如自回歸任務(wù)進(jìn)行預(yù)訓(xùn)練了,如Fig 1.所示,將圖片令牌化到若干個(gè)令牌后,就將視覺預(yù)訓(xùn)練任務(wù)轉(zhuǎn)化為了『文本』預(yù)訓(xùn)練任務(wù),作者將這樣一個(gè)通過視覺令牌構(gòu)成的句子,稱之為Visual Sentence,也蘊(yùn)含著將視覺任務(wù)文本化的意味?
Fig 1. LVM的模型框架,通過VQ-GAN將圖片令牌化到256個(gè)令牌,將視覺的預(yù)訓(xùn)練任務(wù)完全轉(zhuǎn)化為了文本的自回歸預(yù)訓(xùn)練任務(wù)。
那么如何將圖像進(jìn)行令牌化呢?在之前的一些工作,比如VQ-VAE、VQ-GAN中曾經(jīng)對(duì)圖像令牌化有所考慮,讀者可在筆者之前的博文[2]中簡單參考其思路,同時(shí),在BEiT v2 [3] 中也有對(duì)VQ-VAE的一些改進(jìn)(引入更語義的信息),在本篇工作中,作者采用了VQ-GAN對(duì)圖片進(jìn)行令牌化,筆者覺得是由于LVM后續(xù)還需要對(duì)視覺令牌進(jìn)行解碼,生成圖像(見Fig 1的decoder部分),采用VQ-GAN能提供更好的圖像生成能力,向量量化的簡易示意圖可參考Fig 2.所示。
作者在本工作中的一個(gè)最大貢獻(xiàn),就是收集了一套大規(guī)模的用于LVM預(yù)訓(xùn)練的數(shù)據(jù)集,其中圖像數(shù)據(jù)形式各種各樣,來自于各種公開數(shù)據(jù)集,包括:
- 圖片:一般的圖片,如LAION數(shù)據(jù)集。
- 視頻序列:將視頻抽幀作為圖片序列,此處視頻類型各種各樣,包括一般的視頻,3D物體旋轉(zhuǎn)的視頻,CAD模型旋轉(zhuǎn)產(chǎn)生不同視角的圖片序列等等。
- 帶有標(biāo)注的圖片:比如物體識(shí)別,語義分割等圖片,可能包含有包圍框、語義分割、圖片風(fēng)格轉(zhuǎn)換、著色等標(biāo)注在圖片上。
- 帶有標(biāo)注的視頻:如帶有視頻的分割標(biāo)注等。
該數(shù)據(jù)集是一個(gè)純圖片數(shù)據(jù)集,沒有任何配對(duì)的文本數(shù)據(jù),具體數(shù)據(jù)收集的細(xì)節(jié)請(qǐng)見論文,此處不累述,作者將這個(gè)數(shù)據(jù)集命名為UVD-V1(Unified Vision Dataset),其中包含了50個(gè)公開數(shù)據(jù)集的數(shù)據(jù),在將每張圖片大小resize到256*256后,通過VQ-GAN將每個(gè)圖片轉(zhuǎn)化為了256個(gè)令牌后(碼表大小8192),產(chǎn)生了4200億個(gè)令牌(420B)。此時(shí),每張圖片/視頻序列都可以描述為一個(gè)視覺短句,如
[BOS] V1, V2, V3, ..., Vn [EOS]
通過自回歸的方式,采用交叉熵?fù)p失去建模下一個(gè)令牌出現(xiàn)的概率,即是:
這就是所謂視覺任務(wù)語言模型化,因此作者也采用了LLM的開源模型LLaMA作為底座模型建模,大致的模型建模和數(shù)據(jù)構(gòu)建部分就簡單介紹到這里,里面很多細(xì)節(jié)問題也不在此處討論,筆者主要關(guān)注了下論文的實(shí)驗(yàn)和效果展示部分。
Fig 2. 對(duì)向量量化(VQ)的簡單示意圖,可將稠密向量轉(zhuǎn)化為稀疏的令牌(1、2步),通過反查字典,可『恢復(fù)』出稠密向量(3步),將稠密向量接入解碼器即可恢復(fù)出原始圖像。
在實(shí)驗(yàn)部分,作者通過控制變量法,探討了一些基礎(chǔ)的模型超參數(shù)下的模型基礎(chǔ)表現(xiàn),如輸入長度、模型大小、數(shù)據(jù)集消融等等的影響,具體可見原論文,筆者不進(jìn)行累述,筆者主要想對(duì)論文中的圖像提示詞(prompt)和生成結(jié)果進(jìn)行討論。作者通過圖像提示詞的方式,對(duì)諸多傳統(tǒng)的CV任務(wù),如人體關(guān)鍵點(diǎn)檢測(cè)、物體檢測(cè)、視頻幀預(yù)測(cè)、inpainting、去雨乃至是基礎(chǔ)推理能力進(jìn)行了研究,如Fig 3.就展示了通過提供一個(gè)視頻序列的前15幀,對(duì)接續(xù)4幀進(jìn)行預(yù)測(cè)的能力,能看到預(yù)測(cè)的接續(xù)4幀從視覺上看會(huì)較為趨同,但是也有一些模型『推理能力』的痕跡在里面,比如最后一個(gè)騎摩托的生成結(jié)果,有明顯的從近到遠(yuǎn)離去的變化。
Fig 3. 提供一個(gè)視頻序列的前15幀,對(duì)接續(xù)4幀進(jìn)行預(yù)測(cè)。
接下來是通過提供few-shot visual prompt,以<原圖, 目標(biāo)圖>
的形式喂給LVM進(jìn)行預(yù)測(cè)的任務(wù),如Fig 4.所示,在多種傳統(tǒng)CV任務(wù)上都有著不俗的表現(xiàn)。考慮到數(shù)據(jù)集中有著3D渲染的多視角數(shù)據(jù),作者還探索了LVM建模3D旋轉(zhuǎn)的能力(用以證明LVM具有一定的三維視覺理解能力?),如Fig 5.所示,通過提供一系列將同一個(gè)3D物體進(jìn)行某個(gè)方向旋轉(zhuǎn)的visual prompt,LVM可以對(duì)接續(xù)的4幀進(jìn)行預(yù)測(cè)。
Fig 4. LVM通過few-shot visual prompt的形式,可以『激發(fā)』諸多傳統(tǒng)CV任務(wù)的能力。
Fig 5. LVM具有建模3D物體旋轉(zhuǎn)的能力。
在Fig 6.中,作者還報(bào)告了LVM對(duì)多種CV任務(wù)的組合能力,比如提供的visual prompt是3D旋轉(zhuǎn)和關(guān)鍵點(diǎn)追蹤兩個(gè)CV任務(wù)的復(fù)合體,從生成接續(xù)的3幀來看也能得到合理的結(jié)果,表征了LVM似乎能對(duì)多種CV任務(wù)進(jìn)行組合,即便這些組合在原始訓(xùn)練數(shù)據(jù)中可能不曾出現(xiàn)。
Fig 6. LVM似乎也能感知到對(duì)多種CV任務(wù)的組合的visual prompt?
Fig 7. LVM對(duì)找簡單規(guī)律的問題能夠有所感知,如數(shù)量遞增、光照變化、尺度放縮等。
Fig 8. 對(duì)一些行測(cè)的找規(guī)律題目也有所感知。
與此同時(shí),想要成為視覺領(lǐng)域的GPT,那么除了基礎(chǔ)的CV能力之外,其邏輯推理能力也不能落下,作者提供了幾個(gè)visual prompt,給讀者稍微一些遐想。如Fig 7,LVM對(duì)一些規(guī)律性的CV問題,比如圖片內(nèi)物體遞增、光照變化、尺度放縮等有所感知。如Fig 8.所示,LVM能對(duì)一些找規(guī)律的題目進(jìn)行一些感知。GPT有著諸多體現(xiàn)『智能』的表現(xiàn),如
- 強(qiáng)大的邏輯推理能力
- 代碼理解和生成能力
- 分步思考,思維鏈能力
- 類人的理解能力,包括一些幽默感、反諷、情緒理解等能力
- 世界知識(shí):包括事實(shí)性知識(shí) (factual knowledge) 和常識(shí) (commonsense)
- ...
其中的邏輯推理能力,可以說是最接近我們通常理解的『智能』的能力,我們之前展示的LVM能力,是否足以證實(shí)LVM具有和GPT一般的邏輯推理能力呢?
筆者認(rèn)為似乎論據(jù)仍然不足,首先從論文提供的數(shù)據(jù)中,能看出推理能力的是Fig 8中展示的幾何圖形找規(guī)律任務(wù),但是我們是從結(jié)果上的正確與否確定的,我們是否能『探知』到LVM的思考過程呢?完全沒有看到,如下圖所示,不像LLM能夠通過自我反省的方式,讓它吐出推理的過程,進(jìn)而判斷是否具有邏輯推理能力,以及模型推理能力的強(qiáng)弱。在LVM中我們只能通過給定一些具有邏輯性的視覺任務(wù)(而且還是人類認(rèn)為具有邏輯性的題目,也許LVM會(huì)通過其他信號(hào)去擬合,而不是通過『邏輯推理』的方式?),通過直接輸出的結(jié)果進(jìn)行檢測(cè),正如筆者所說,這個(gè)方式并不是一個(gè)合適的探知推理能力的方法。此外,筆者認(rèn)為推理能力依賴一些世界知識(shí),比如實(shí)體識(shí)別能力,實(shí)體解釋能力等,從文章中似乎沒有看出明顯的體現(xiàn)?LVM是否可以解釋什么是蘋果?什么是梨子?蘋果和梨子之前有什么共同點(diǎn)和差異?這些能力沒法從現(xiàn)在的LVM中看到。目前的視覺提示詞的方式,似乎不容易從中探知LVM的世界知識(shí)能力?
筆者認(rèn)為單純的視覺大模型很難建模完整的邏輯推理能力(當(dāng)然也不是不可能,畢竟人類以視覺識(shí)別文本,文本完全可以渲染成圖片作為LVM輸入,從而LVM變?yōu)橥ㄓ玫亩嗄B(tài)GPT,但是我們?yōu)槭裁匆釛壩谋灸??),邏輯推理能力依賴一些世界知識(shí)和語義,脫離了文本很難建模,并且文本作為表達(dá)需求和可以作為自我解釋的手段,也是一個(gè)通用AGI模型不能舍棄的。因此筆者對(duì)LVM的評(píng)價(jià)是:一個(gè)很不錯(cuò)和有啟發(fā)的工作,但是稱之為視覺大模型的GPT時(shí)刻似乎不妥,稱之為AGI更是有捧殺之意了。
當(dāng)然,對(duì)于筆者來說這篇工作還有更多值得思考的,比如作者采用了視覺令牌化作為模型的直接輸入進(jìn)行建模這塊,筆者就深表贊同。筆者在工作中也嘗試以各種角度落地多模態(tài)技術(shù),無論是從工業(yè)界遇到的問題,還是學(xué)術(shù)界研究的角度來看,視覺令牌化都是一個(gè)非常值得探索的技術(shù)。之前筆者在項(xiàng)目實(shí)踐中覺得視覺令牌化應(yīng)該是對(duì)視覺語義的提取,會(huì)失去不少視覺細(xì)節(jié)信息,但是從Fig 4來看,似乎LVM對(duì)很多偏向low-level的視覺任務(wù)都有不錯(cuò)的表現(xiàn)(包括未展示的de-rain任務(wù)),這些low-level的任務(wù)對(duì)視覺的細(xì)粒度信息應(yīng)該還是有所需要的,因此這一點(diǎn)比較刷新作者的認(rèn)識(shí),筆者猜想可能是由于采用了VQ-GAN技術(shù)導(dǎo)致的視覺令牌中可以攜帶更多細(xì)粒度的視覺信息?畢竟在實(shí)踐中,視覺詞表是一個(gè)偏向于利用率不充分的存在,也許采用了VQ-GAN技術(shù)后可以更加充分利用詞表,進(jìn)而對(duì)細(xì)粒度有所感知。當(dāng)然,這些都是筆者的一些隨性猜想罷了,希望拋磚引玉得到各位讀者的指教。
Reference
[1]. Bai, Yutong, et al. "Sequential Modeling Enables Scalable Learning for Large Vision Models." arXiv preprint arXiv:2312.00785 (2023).
[2]. https://blog.csdn.net/LoseInVain/article/details/129224424,【論文極速讀】VQ-VAE:一種稀疏表征學(xué)習(xí)方法
[3]. Peng, Zhiliang, Li Dong, Hangbo Bao, Qixiang Ye, and Furu Wei. "Beit v2: Masked image modeling with vector-quantized visual tokenizers." arXiv preprint arXiv:2208.06366 (2022)