性无码一区二区三区在线观看,少妇被爽到高潮在线观看,午夜精品一区二区三区,无码中文字幕人妻在线一区二区三区,无码精品国产一区二区三区免费

CatLIP,加速2.7倍!采用分類損失的CLIP水準的預訓練視覺編碼器

CLIP [2] 開創(chuàng)了一個圖文大規(guī)模預訓練的時代,然而CLIP也具有不足之處,因此引出了一系列的改進工作,具體可見 [3]。 針對CLIP在大規(guī)模數(shù)據(jù)下訓練速度慢的問題,已有一些工作研究,如SigLIP [4] 嘗試用sigmoid損失去替換infoNCE損失,從而減少通信量,在提速的同時還能提高模型效果,具體可見博文 [5]。 本文介紹的CatLIP [1], 則是考慮將對比學習這種方式改為多標簽分類任務,從而進一步減少通信量,并且能在各任務下達到CLIP水準的視覺編碼表現(xiàn)。如Fig 1 (b) 所示,對于當前batch給定的N個圖片-文本對,CLIP需要分別進行圖片編碼器和文本編碼器的計算得到特征向量,然后組成N2個正負樣本對進行損失計算。 而對于CatLIP來說,如Fig 1 (a) 所示,任務從CLIP的厘清N2個正負樣本對,變成了只需要對N個圖片進行多標簽分類,分類的多個類別來自于當前圖片-文本對中的文本,為了提高泛化性,我們還需要對這文本進行找近義詞的操作。 整個過程中,不再需要進行特征向量的跨卡通信,不再需要訓練文本編碼器,而只需要最基本的梯度信息跨卡通信(多機多卡訓練難以避免的基礎通信代價)。從Fig 1.的實驗來看,CatLIP能在保持下游任務性能持平的情況下,提速2.7倍!

Fig 1. CatLIP和CLIP的流程對比,以及性能和訓練速度對比,其中 表示模型參數(shù)可訓練。

讓我們具體看下整個工作,筆者曾經在博文 [3] 中談到過自己對CLIP的理解,CLIP主要是跨圖文模態(tài)語義對齊,進一步說就是對視覺語義元素,包括實體(Entity),屬性(Attribution),關系(Relation)進行語義對齊。其中最為主要的,可能就是“實體”和“屬性”了,至于“關系”這一個元素,則可以在語義融合階段進行更加高效地學習。然而,有一個問題不禁在心中涌出:采用大規(guī)模對比學習的方式,去學習“實體”和“屬性”,性價比是否足夠高呢?

為了回答這個問題,有必要回顧下CLIP學習到語義對齊的原理,對比Image-Text Matching(ITM)和Mask Image Modeling(MIM)來說,CLIP是高效的語義對齊機制。 CLIP的模型結構和正負樣本組成策略并不復雜,其負樣本構成方式是經典的batch negative方式,也即是從batch內部去構成負樣本,而CLIP的貢獻點在于能夠采用海量的來自于互聯(lián)網(wǎng)的圖文對數(shù)據(jù)(約4億條圖文對)和超大batch size(約32000)進行預訓練,并且為了能夠充分學習,采用了大容量的模型結構。為何CLIP的這種“樸素”學習方式可以有效進行語義對齊呢?如Fig 2. 所示,在一次對比中,正樣本可以和海量的負樣本進行對比,這種對比有兩種維度:

  • 圖-文對比:一個圖片對應有一個匹配的文本(正樣本),和個不匹配的文本(負樣本),此時一次正負樣本對比,可以充分地厘清不同文本中的視覺語義對齊。如Fig 6.2中,以第一行視為正樣本,那么對于文本中的“幼犬、小狗、小狗寶寶”都是與正樣本圖片相符的,而其負樣本文本“小貓”則和正樣本圖片不負。因此一次性就厘清了“小狗,幼犬”和“小貓”的語義差別,如果我們的負樣本足夠大,那么就能夠在一次迭代過程中,厘清非常多的文本中的視覺概念,而這是MLM和ITM不能做到的。
  • 文-圖對比:和圖-文對比類似,一個文本對應有一個匹配的圖片(正樣本),和N−1個不匹配的圖片(負樣本),同樣一次正負樣本的對比,可以厘清不同圖片之間的視覺語義對齊。同樣以第一行為正樣本,那么文本中的"幼犬、小狗、小狗寶寶"等字樣只和第一行圖片匹配,和其他圖片并不能有效匹配,因此能一次性厘清非常多圖片中的視覺概念。

也即是CLIP中對于語義概念,除了本身圖文對的正樣本監(jiān)督之外,都是依賴與負樣本的“對比”學習出來的,而這種模式主要在學習視覺實體和視覺屬性。這種學習機制,在學習初期可以有效地進行視覺概念的厘清,但是到后期后,絕大部分的負樣本將會變成簡單負樣本(語義概念已在前期學習到了),使得學習變得緩慢且低效?;氐轿覀兊膯栴}:光是為了實體和屬性的對齊,采用大規(guī)模對比學習的方式去學習是不夠劃算的。

Fig 2. CLIP的對比學習方式,使得能夠在一次對比過程中,有效厘清正樣本和負樣本中的視覺語義概念。

而本文的CatLIP作者提出了一種方法,將對比學習任務改為多標簽分類任務,其中的多標簽就是來自于圖文對中的文本描述,主要就是各種名詞性的實體,為了進一步提高泛化性和zero-shot能力,作者還對這些實體進行求同義詞。讓我們形式化表達下整個過程,假設當前batch有N個圖文對(Ii,Ti),i=1,?,N,求同義詞的過程 可表示為ExtractSynset(T)={f(wi)|posi is a noun ∀i=1,?,m} ,其中的f(⋅)將原文本描述W中的名詞wi映射到WordNet中的同義詞集合S。這個過程中,不難知道同義詞中也會有不同的共現(xiàn)次數(shù),次數(shù)少的意味著這個同義詞是長冷的,為了減少多分類分類的代價,可以將其舍棄,本文設定共現(xiàn)次數(shù)大于閾值Vτ=500的才會保留下來。最終作者在DataComp-1.3BCC3M這兩個預訓練數(shù)據(jù)集上提取了同義詞集合,可以看到:

  • 越大的預訓練集合(13億 vs 3百萬),其同義詞集合的尺度就越大(將近40000 vs 將近10000),這代表越大的預訓練數(shù)據(jù)具有更多的內容豐富度和多樣性。
  • 采用閾值Vτ=500進行篩選后,整個多標簽分類任務的類別將在2000-25000左右。

Fig 3. 分析圖文對數(shù)據(jù)集中提取的WordNet同義詞集,較大的數(shù)據(jù)集(13億 vs 3百萬)通常包含更多數(shù)量的同義詞,表明較大數(shù)據(jù)集中的內容多樣性增加。

作者對比了CatLIP和CLIP (圖像編碼器都是ViT B/16)在數(shù)據(jù)集CC3M上的預訓練效果,采用ImageNet-1k的線性探測(Linear Probe)top-1準確率作為指標監(jiān)控,如Fig 4. 所示,可以發(fā)現(xiàn):

  • CatLIP不需訓練文本編碼器,并且只需要對最基本的梯度進行跨卡通信,訓練速度快。
  • CatLIP的指標隨著訓練epoch的數(shù)量提高而遞增,而CLIP則會達到飽和,這意味著CLIP或許需要更大的預訓練數(shù)據(jù)集。

Fig 4. 對比CatLIP和CLIP的預訓練速度和效果。在CC3M數(shù)據(jù)集上進行預訓練,采用ImageNet-1K的線性探測top-1準確率作為指標。

CC3M是一個只有3百萬圖文對的小型預訓練數(shù)據(jù),作者也進行了數(shù)據(jù)尺度放縮的試驗,將預訓練數(shù)據(jù)集換成了DataComp-1.3B,一個具有13億圖文對的數(shù)據(jù)集,實驗結果如Fig 5.所示,通過放大預訓練的數(shù)據(jù)量,CatLIP能夠得到可觀的、一致的性能提升。

Fig 5. CatLIP中的數(shù)據(jù)放縮試驗。通過在ImageNet-1k和Places365上進行線性探測(LP)和全微調(FT),將圖像文本數(shù)據(jù)集從300萬個樣本擴展到13億個樣本可以提高ViT B/16的遷移學習精度。

作者在原文還對模型尺度放縮的效果進行了對比,同時用CatLIP在其他任務(如分類任務、語義分割、目標檢測和實例分割等)進行了效果驗證,結論是采用CatLIP的方式預訓練的模型,在這些任務中都得到了持平或者更好的模型效果表現(xiàn)。在此就不展開了。最后貼一張CatLIP和其他同類模型的對比參考,任務是分類任務。

Fig 6. 使用監(jiān)督和弱監(jiān)督方法在不同數(shù)據(jù)集上預訓練的ViT模型的遷移學習精度(分類任務)。遷移學習是通過在下游分類任務上微調整個模型來實現(xiàn)的。


筆者讀后感

這篇論文給筆者帶來的啟發(fā),就是CLIP中語義對齊部分的實體語義對齊,可以拆分為簡單直白的多標簽分類任務進行建模,損失就是Binary Cross Entropy損失,這個的確能帶來訓練速度上的大幅度提升。不過筆者還是有點疑惑的地方:

  1. 只對名詞進行檢測并且求同義詞集合,一些視覺屬性,比如顏色、圖樣(條紋狀、格子狀等)等形容詞,是不是就沒法建模了?這個CLIP應該是可以建模出來的。同理,關系類的視覺概念似乎也沒辦法建模了。
  2. 對于組合型視覺概念更加不友好了,雖然CLIP也對組合型的視覺概念不友好,但是還是能學習出高頻組合概念的,但是我理解在CatLIP中由于完全拆分為了多標簽分類任務,并且沒有對比的過程,已經沒辦法建模組合概念了。
  3. 我直觀上感受是,CLIP是一個主要通過正負樣本對比去學習視覺概念的過程,這個過程如果設計好正負樣本,比較容易建模細粒度的視覺概念,CatLIP這種方式,可能沒辦法對細粒度的概念(比如比同義詞集合中的描述粒度還小的概念)進行學習。

先存疑吧,后面繼續(xù)看看有沒有后續(xù)工作討論我的這些疑問的,也歡迎讀者評論區(qū)交流&指正~。~

Reference

[1]. Mehta, Sachin, Maxwell Horton, Fartash Faghri, Mohammad Hossein Sekhavat, Mahyar Najibi, Mehrdad Farajtabar, Oncel Tuzel, and Mohammad Rastegari. "CatLIP: CLIP-level Visual Recognition Accuracy with 2.7 x Faster Pre-training on Web-scale Image-Text Data." arXiv preprint arXiv:2404.15653 (2024). aka CatLIP

[2]. Radford, Alec, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry et al. "Learning transferable visual models from natural language supervision." In International conference on machine learning, pp. 8748-8763. PMLR, 2021. aka CLIP

[3].https://fesianxu.github.io/2023/03/04/story-of-multimodal-models-20230304/, 《視頻與圖片檢索中的多模態(tài)語義匹配模型:原理、啟示、應用與展望》

[4]. Zhai, Xiaohua, Basil Mustafa, Alexander Kolesnikov, and Lucas Beyer. "Sigmoid loss for language image pre-training." In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 11975-11986. 2023. aka SigLIP

[5]. https://fesianxu.github.io/2024/09/08/sigmoid-language-image-pretrain-20240908/, 《SigLIP——采用sigmoid損失的圖文預訓練方式》

聲明:本內容為作者獨立觀點,不代表電子星球立場。未經允許不得轉載。授權事宜與稿件投訴,請聯(lián)系:editor@netbroad.com
覺得內容不錯的朋友,別忘了一鍵三連哦!
贊 2
收藏 2
關注 52
成為作者 賺取收益
全部留言
0/200
成為第一個和作者交流的人吧