性无码一区二区三区在线观看,少妇被爽到高潮在线观看,午夜精品一区二区三区,无码中文字幕人妻在线一区二区三区,无码精品国产一区二区三区免费

徐土豆
認(rèn)證:優(yōu)質(zhì)創(chuàng)作者
所在專題目錄 查看專題
視頻分析與多模態(tài)融合之一,為什么需要多模態(tài)融合
WenLan 2.0:一種不依賴Object Detection的大規(guī)模圖文匹配預(yù)訓(xùn)練模型 & 數(shù)據(jù)+算力=大力出奇跡
圖文多模態(tài)語義融合前的語義對(duì)齊——一種單雙混合塔多模態(tài)模型
在多模態(tài)模型訓(xùn)練時(shí),如何合適地融合單模態(tài)損失
FILIP: 一種基于交互的細(xì)粒度圖文預(yù)訓(xùn)練模型
ERNIE VIL 2.0,多模態(tài)模型的一種多視角預(yù)訓(xùn)練范式
作者動(dòng)態(tài) 更多
給定計(jì)算預(yù)算下的最佳LLM模型尺寸與預(yù)訓(xùn)練數(shù)據(jù)量分配
1天前
大模型推理時(shí)的尺度擴(kuò)展定律
2天前
世界多胞體與世界模型
1星期前
獎(jiǎng)勵(lì)模型中的尺度擴(kuò)展定律和獎(jiǎng)勵(lì)劫持
1星期前
MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果
2星期前

FILIP: 一種基于交互的細(xì)粒度圖文預(yù)訓(xùn)練模型

FILIP [1] 提出是為了解決圖文匹配中的細(xì)粒度匹配問題。我們之前在博文 [2] 中曾經(jīng)討論過,在圖文雙塔匹配中,由于需要對(duì)圖片塔的向量提前進(jìn)行刷庫,一些長(zhǎng)尾的,形態(tài)較小的物體可能會(huì)在訓(xùn)練過程中被忽略,導(dǎo)致圖文匹配的時(shí)候缺少對(duì)細(xì)粒度匹配的能力。為了解決這個(gè)問題,我們需要提供模型以圖片和文本在線交互(online interaction)的能力,將圖片以某種形式提取出每個(gè)區(qū)域的信息(ROI Detector檢測(cè)每個(gè)ROI區(qū)域,或者單純的劃分patch,如ViT所做的那樣),然后將文本和圖片每個(gè)區(qū)域進(jìn)行交互,從而模型有能力挖掘出圖片中的一些細(xì)粒度信息。以第一種方式為例,如Fig 1.1所示,如果采用ROI Detector首先對(duì)圖片的ROI區(qū)域進(jìn)行提取,如紅框所示,通過對(duì)文本『黃色桌子上的小黃人』進(jìn)行在線匹配,即可實(shí)現(xiàn)對(duì)場(chǎng)景中的小黃人的細(xì)粒度匹配。

Fig 1.1 以ROI Detector的方式提取出圖片中的ROI區(qū)域,通過對(duì)文本和ROI區(qū)域進(jìn)行在線交互(在線匹配),即可實(shí)現(xiàn)細(xì)粒度圖文匹配的目的。

當(dāng)然,這個(gè)前提是有一個(gè)足夠好的ROI detector,并且其計(jì)算復(fù)雜度的代價(jià)也很高,對(duì)于在線應(yīng)用比如圖片搜索來說是一個(gè)比較大的負(fù)擔(dān)。FILIP用了一種比較直接,也比較聰明的方法實(shí)現(xiàn)在線交互,其方法就是『遲交互(Late Interaction)』,想辦法盡可能把交互的操作后移,從而使得pipeline的前端結(jié)果可以刷庫,減少在線交互的代價(jià)。

如Fig 1.2所示,F(xiàn)ILIP的圖片編碼器是ViT [3-4],對(duì)輸入圖片進(jìn)行簡(jiǎn)單的分塊后,進(jìn)行線性映射輸入到Transformer中,其輸出就是對(duì)應(yīng)每個(gè)Image Patch的Embedding向量,文本側(cè)同樣采用Transformer,其輸出就是每個(gè)token的embedding。如果用x I x^Ix I 表示圖片樣本,表示文本樣本,那么表示batch內(nèi)圖片的第i ii個(gè)樣本,表示batch內(nèi)文本的第i個(gè)樣本,具有同個(gè)下標(biāo)的樣本對(duì)我們認(rèn)為是一對(duì)正樣本,而下標(biāo)不同的樣本對(duì)我們認(rèn)為是一對(duì)負(fù)樣本。用表示圖片編碼器,表示文本編碼器,在不存在交互的雙塔匹配模型中,如CLIP和ALIGN中,第i個(gè)和第j個(gè)樣本間的相似度定義為:

其中f ,無論是圖片編碼器還是文本編碼器,均對(duì)同一個(gè)圖片/文本只產(chǎn)出一個(gè)特征向量,通過計(jì)算余弦相似度計(jì)算其圖文相似性,顯然這是一種全局(Global)的相似度計(jì)算方式。而在FILIP中,采用ViT和Text Transformer可以對(duì)每個(gè)圖片token和文本token產(chǎn)出『專屬』的embedding(可以認(rèn)為是每個(gè)模態(tài)的細(xì)粒度局部信息),假設(shè)分別是第i ii個(gè)圖片樣本和第j個(gè)文本樣本的token數(shù)量,那么有 。 我們?cè)趺从?jì)算第i個(gè)和第j個(gè)樣本間的相似度呢?此時(shí)就體現(xiàn)了遲交互的作用,對(duì)于第i個(gè)圖片的第k個(gè)token而言,分別計(jì)算其和第j個(gè)文本樣本的所有個(gè)token間的相似程度,并且挑選其中相似度最大的打分,作為第i個(gè)圖片第k個(gè)token的打分代表,這個(gè)方式作者稱之為『逐令牌最大相似度(token-wise maximum similarity)』。

當(dāng)然,對(duì)于圖片樣本i來說,這個(gè)只是第k個(gè)token的最大相似度打分,而我們有 個(gè)圖片token,因此會(huì)對(duì)這個(gè)最大相似度打分進(jìn)行求平均。

其中的標(biāo)識(shí)了其最大相似度的索引,也就是 ,式子(1-3)是圖片-文本側(cè)的相似度度量,類似的,我們也可以定義出文本-圖片側(cè)的相似度度量。 注意到不一定等于,也就是說基于最大相似度的交互,其跨模態(tài)相似度不一定是對(duì)稱的,這一點(diǎn)和CLIP不同。

Fig 1.2 FILIP的框圖示意,采用了跨模態(tài)遲交互后,可以進(jìn)行更細(xì)粒度的匹配。

我們發(fā)現(xiàn)這種對(duì)每個(gè)模態(tài)的token,求另外模態(tài)的最大相似度的方法,其實(shí)類似于Fig 1.1中的交互方法,只是其沒有采用ROI的方式進(jìn)行匹配,而是以圖片patch和文本token依次匹配的方式,如Fig 1.3所示,顯然這種方式同樣可以實(shí)現(xiàn)細(xì)粒度的圖文匹配。在線上應(yīng)用時(shí)候,需要對(duì)每張圖片都進(jìn)行刷特征并且存入正排庫,刷特征的時(shí)候需要對(duì)圖片每個(gè)patch的特征都進(jìn)行落盤,以便在線上進(jìn)行交互時(shí)候使用。如公式(1-3)所示,線上交互時(shí)可以計(jì)算,然后以其平均值作為最終相似度(Query-圖片搜索應(yīng)用直接用即可)。顯然,由于需要對(duì)個(gè)圖片patch特征都進(jìn)行落盤到正排庫,需要非常大量的正排存儲(chǔ)資源,在實(shí)際落地的過程中也許會(huì)碰到一定的困難,需要進(jìn)行工程上的優(yōu)化。

Fig 1.3 通過對(duì)圖片和文本分別進(jìn)行分塊(對(duì)于文本是分詞,對(duì)于圖片是分patch),在遲交互階段采用的逐令牌最大相似度匹配,可以實(shí)現(xiàn)細(xì)粒度匹配。

作者采用了Prompt Learning的方式,對(duì)數(shù)據(jù)集采用了Prompt模版的優(yōu)化,本文就不展開了。在論文中作者對(duì)圖文細(xì)粒度匹配的結(jié)果進(jìn)行了可視化,如Fig 1.4所示,此處的label分別為“Balloon(氣球)”,“Lifeboat(救生艇)”,“Small white butterfly(小白蝶)”,“Electric Iocomotive(電力機(jī)車)”,而label后面的數(shù)字表示label的某位單詞在label模版中的位置。舉個(gè)例子,此處的模版為

Label模版:a photo of a {label}

當(dāng)label為"Small white butterfly"的時(shí)候,label模版即為“a photo of a small white butterfly”,small在該模版中的第5位,white在第6位而butterfly在第7位。按照前文描述的交互方式,我們求出每個(gè)圖片patch與label模版單詞,其中的最大相似度匹配的模版位置ID,然后將這些位置ID中為label位置ID的進(jìn)行高亮,這樣就繪制出了如Fig 1.4所示的結(jié)果。我們可以發(fā)現(xiàn)這些label物體有些是非常細(xì)粒度的,如氣球在原圖中的視覺占比非常小,CLIP的結(jié)果和我們預(yù)期的一致,壓根沒有對(duì)這種細(xì)粒度物體進(jìn)行響應(yīng)。而FILIP的結(jié)果則能對(duì)圖中patch中有氣球部分的進(jìn)行響應(yīng)。FILIP不僅能對(duì)細(xì)粒度物體進(jìn)行響應(yīng),對(duì)于大物體同樣效果不俗,如Fig 1.4©所示,這個(gè)蝴蝶占據(jù)了大半個(gè)圖片,此時(shí)FILIP匹配效果同樣能夠超過CLIP。

Fig 1.4 對(duì)比CLIP的結(jié)果,可以發(fā)現(xiàn)FILIP對(duì)于圖文細(xì)粒度匹配更有優(yōu)勢(shì)。

Reference

[1]. Yao, Lewei, Runhui Huang, Lu Hou, Guansong Lu, Minzhe Niu, Hang Xu, Xiaodan Liang, Zhenguo Li, Xin Jiang, and Chunjing Xu. “Filip: Fine-grained interactive language-image pre-training.” arXiv preprint arXiv:2111.07783 (2021).

[2]. https://blog.csdn.net/LoseInVain/article/details/122735603, 圖文多模態(tài)語義融合前的語義對(duì)齊——一種單雙混合塔多模態(tài)模型

[3]. https://blog.csdn.net/LoseInVain/article/details/116031656,將Transformer用在圖片上:Vision Transformer論文雜談

[4]. Dosovitskiy, Alexey, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani et al. “An image is worth 16x16 words: Transformers for image recognition at scale.” arXiv preprint arXiv:2010.11929 (2020).

聲明:本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表電子星球立場(chǎng)。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴,請(qǐng)聯(lián)系:editor@netbroad.com
覺得內(nèi)容不錯(cuò)的朋友,別忘了一鍵三連哦!
贊 1
收藏 2
關(guān)注 52
成為作者 賺取收益
全部留言
0/200
成為第一個(gè)和作者交流的人吧