性无码一区二区三区在线观看,少妇被爽到高潮在线观看,午夜精品一区二区三区,无码中文字幕人妻在线一区二区三区,无码精品国产一区二区三区免费

<cite id="evdpu"><strike id="evdpu"></strike></cite>

<wbr id="evdpu"><nav id="evdpu"></nav></wbr>

<blockquote id="evdpu"></blockquote>

<tt id="evdpu"></tt>

<em id="evdpu"><th id="evdpu"></th></em>

認(rèn)證：優(yōu)質(zhì)創(chuàng)作者

作者動態(tài)

大模型推理時(shí)的尺度擴(kuò)展定律

1小時(shí)前

世界多胞體與世界模型

5天前

獎勵模型中的尺度擴(kuò)展定律和獎勵劫持

6天前

MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果

1星期前

DoReMi——一種通過代理模型估計(jì)大模型預(yù)訓(xùn)練最佳數(shù)據(jù)配比的方法

2星期前

工程師都在看

7.6KW裂相并網(wǎng)逆變器系統(tǒng)設(shè)計(jì)

反激式電源為什么上電最容易燒MOS管？

LLC諧振變換器（三）-設(shè)計(jì)步驟

測試電機(jī)波形方法及問題經(jīng)驗(yàn)

從0到1設(shè)計(jì)BUCK(11) | 配置欠壓閉鎖的閾值，給電源加一道“安全門”

開關(guān)電源模式大揭秘：BUCK電路如何“智能”應(yīng)對負(fù)載變化？

從0到1設(shè)計(jì)BUCK(12) | 配置反饋電阻，你的輸出電壓由你定義

基于stm32采用PWM驅(qū)動伺服控制器學(xué)習(xí)筆記

車規(guī)芯片認(rèn)證標(biāo)準(zhǔn)AEC-Q100-H中文版及內(nèi)容解讀（正文部分）

嵌入式閑聊-優(yōu)質(zhì)學(xué)習(xí)資料獲取

【論文極速讀】ERNIE VIL 2.0，多模態(tài)模型的一種多視角預(yù)訓(xùn)練范式

徐土豆 01-16 14:55 93 閱讀 2 贊 3 收藏 0 評論

在ERNIE VIL 1.0[2,3]中，作者通過擴(kuò)展Mask Language Model到多模態(tài)模型上，實(shí)現(xiàn)多模態(tài)模型的建模。其數(shù)據(jù)采用的是的數(shù)據(jù)對，如Fig 1.所示。通常caption是對圖片的視覺描述，可以由人工標(biāo)注而來，也可以像Conceptual Captions(CC)和SBU Captions(SBU)數(shù)據(jù)集一樣，從互聯(lián)網(wǎng)數(shù)據(jù)中自動挖掘得到。模型采用的單塔雙流交互模型，如Fig 2.所示。

Fig 1. 常見的Image，Caption形式的圖文數(shù)據(jù)對。

Fig 2. ERNIE VIL 1.0 采用的模型結(jié)構(gòu)是單塔雙流交互模型，通過跨模態(tài)的MLM進(jìn)行建模。

ERNIE VIL 1.0采用單塔交互模型意味著無法采用類似于CLIP[4,5]的方式，通過擴(kuò)大batch size的方式進(jìn)行大規(guī)模對比學(xué)習(xí)，以提高表征能力。而且只采用了caption信息進(jìn)行預(yù)訓(xùn)練，不免浪費(fèi)了互聯(lián)網(wǎng)圖片中豐富的文本信息。如Fig 3.所示，網(wǎng)頁中的圖片附帶有著眾多不同類型的文本信息可供使用，如圖片的標(biāo)題，圖片的類別信息（可以是用戶自選的），圖片對應(yīng)的上下文信息等，這些文本信息或多或少都與圖片有所關(guān)聯(lián)，在預(yù)訓(xùn)練中或多或少能提供幫助。不僅如此，甚至還可以用Object Detector進(jìn)行圖片中的實(shí)體識別，對圖片進(jìn)行打tag，生成一系列文本。同時(shí)，在商業(yè)系統(tǒng)中還能通過點(diǎn)擊信號，挖掘出用戶query與圖片的樣本對。

Fig 3. 互聯(lián)網(wǎng)中的圖片，通常附帶有眾多相關(guān)的文本信息。

在ERNIE VIL 2.0中，作者采用了雙塔模型，同時(shí)采用了CLIP的方式，通過使用112張A100 GPU和all_gather操作，將總batch size提高到了7168。并且，最主要的是，在該論文中作者提出了“多視角對比學(xué)習(xí)（multi-view contrastive learning）”，其中的多視角指的是同一個模態(tài)中（圖片、文本），不同視角的表達(dá)。比如對于圖片而言，可以對圖片進(jìn)行圖片增強(qiáng)（image augmentation），比如圖片抖動，隨機(jī)crop等。通過這種手段能生成兩個視角的圖片， $I_{v1}$ 表示原圖， $I_{v2}$ 表示進(jìn)行圖片增強(qiáng)后的圖片。對于文本模態(tài)而言，作者認(rèn)為除了caption之外，這個圖片的其他可用文本信息就可視為是多視角文本信息，比如在本文中，作者認(rèn)為圖片的tags是其多視角文本。那么， $T_{v1}$ 為圖片的caption， $T_{v2}$ ? 為圖片的tags（可以是用戶自己選定的，也可以是Object Detector等模型生成的）。如Fig 4.所示，與單視角對比學(xué)習(xí)相比，同個模態(tài)內(nèi)和跨模態(tài)間都可以組建對比損失。如公式(1-1)所示，其中 $S^{+}$ 為正樣本對組合， $S^{-}$ 為負(fù)樣本對組合，其中的i , j表示樣本編號。如公式(1-2)所示，通過infoNCE損失對(1-1)中的各類型pair進(jìn)行損失建模。整個ERNIE-VIL 2.0的模型結(jié)構(gòu)如Fig 4. ©所示。

Fig 4. （a，b）多視角對比學(xué)習(xí) 與單視角對比學(xué)習(xí)的對比。（c）ERNIE-VIL 2.0的模型結(jié)構(gòu)框架。

實(shí)驗(yàn)結(jié)果就不貼出來了，筆者感覺這種方法比較有意思的是，它可以通過多視角文本樣本擴(kuò)充一些抽象實(shí)體的語義。如Fig 5.所示，對于（a）中的caption提到的“Dinner”，“晚餐”本質(zhì)上是一個抽象的實(shí)體，沒有具象化到某一類型具體的食物，而通過Object Detector得到的tag，我們能知道圖片中存在西紅柿，洋蔥，食物等等實(shí)體，通過建立caption和tag的關(guān)聯(lián)，可以讓模型學(xué)習(xí)到Dinner的具象化語義。對于Fig 5. (b)和©而言，BMW E90是寶馬的其中一個型號，而Gatos Manx應(yīng)該是主人給貓取的愛稱。汽車型號這種語義非常稀疏，而貓的姓名更是稀疏無比，在訓(xùn)練樣本中甚至可能沒有其他共現(xiàn)的文本出現(xiàn)了，這種語義很難學(xué)習(xí)出來。而通過建立caption和tag的關(guān)聯(lián)，可以讓模型學(xué)習(xí)到BWM E90是一種白色汽車，而Gatos Manx是一只貓（當(dāng)然這個有風(fēng)險(xiǎn)，也許有人也叫這個名字呢，emm，但是如同“旺財(cái)”“福貴”在貓狗上取名的概率更大一樣，這樣學(xué)習(xí)出來的bias似乎也并不是沒有可取之處呢？）。因此通過多視角文本的多模態(tài)預(yù)訓(xùn)練方式，可以擴(kuò)充抽象語義，學(xué)習(xí)出稀疏語義。這是ERNIE VIL 2.0一文給予筆者最大的啟發(fā)。

Fig 5. 通過多視角文本預(yù)訓(xùn)練，可以擴(kuò)充抽象語義，學(xué)習(xí)出稀疏語義。

Reference

[1]. Shan, Bin, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, and Haifeng Wang. “ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text Pre-training.” arXiv preprint arXiv:2209.15270 (2022).

[2]. Yu, Fei, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, and Haifeng Wang. “Ernie-vil: Knowledge enhanced vision-language representations through scene graph.” arXiv preprint arXiv:2006.16934 (2020).

[3]. https://blog.csdn.net/LoseInVain/article/details/116275484，【論文極速看】ERNIE-VIL 一種基于場景圖解析的多模態(tài)表征方法

[4]. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., … & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020.

[5]. https://blog.csdn.net/LoseInVain/article/details/119516894, CLIP-對比圖文多模態(tài)預(yù)訓(xùn)練的讀后感

聲明：本內(nèi)容為作者獨(dú)立觀點(diǎn)，不代表電子星球立場。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴，請聯(lián)系：editor@netbroad.com

覺得內(nèi)容不錯的朋友，別忘了一鍵三連哦！

贊 2

收藏 3

關(guān)注 52

成為作者賺取收益

全部留言

0/200

成為第一個和作者交流的人吧

<blockquote id="wmf5d"><tt id="wmf5d"></tt></blockquote>