性无码一区二区三区在线观看,少妇被爽到高潮在线观看,午夜精品一区二区三区,无码中文字幕人妻在线一区二区三区,无码精品国产一区二区三区免费

<nobr id="hjtbo"></nobr>

<em id="hjtbo"><ul id="hjtbo"></ul></em>

<button id="hjtbo"><option id="hjtbo"></option></button>

<u id="hjtbo"><strong id="hjtbo"></strong></u>

認(rèn)證：優(yōu)質(zhì)創(chuàng)作者

所在專題目錄查看專題

WenLan 2.0：一種不依賴Object Detection的大規(guī)模圖文匹配預(yù)訓(xùn)練模型 & 數(shù)據(jù)+算力=大力出奇跡

圖文多模態(tài)語義融合前的語義對(duì)齊——一種單雙混合塔多模態(tài)模型

在多模態(tài)模型訓(xùn)練時(shí)，如何合適地融合單模態(tài)損失

FILIP：一種基于交互的細(xì)粒度圖文預(yù)訓(xùn)練模型

ERNIE VIL 2.0，多模態(tài)模型的一種多視角預(yù)訓(xùn)練范式

VQ-VAE的實(shí)現(xiàn)方法分析——一種基于梯度回調(diào)的方法

作者動(dòng)態(tài) 更多

給定計(jì)算預(yù)算下的最佳LLM模型尺寸與預(yù)訓(xùn)練數(shù)據(jù)量分配

2天前

大模型推理時(shí)的尺度擴(kuò)展定律

3天前

世界多胞體與世界模型

1星期前

獎(jiǎng)勵(lì)模型中的尺度擴(kuò)展定律和獎(jiǎng)勵(lì)劫持

1星期前

MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果

2星期前

工程師都在看

7.6KW裂相并網(wǎng)逆變器系統(tǒng)設(shè)計(jì)

基于stm32采用PWM驅(qū)動(dòng)伺服控制器學(xué)習(xí)筆記

反激式電源為什么上電最容易燒MOS管？

從0到1設(shè)計(jì)BUCK(11) | 配置欠壓閉鎖的閾值，給電源加一道“安全門”

從0到1設(shè)計(jì)BUCK(12) | 配置反饋電阻，你的輸出電壓由你定義

反激式變壓器制作流程

開關(guān)電源模式大揭秘：BUCK電路如何“智能”應(yīng)對(duì)負(fù)載變化？

驅(qū)動(dòng)電路設(shè)計(jì)（十）——柵極電荷和應(yīng)用

Sallen-Key濾波器的高頻饋通現(xiàn)象及其對(duì)輸入阻抗的影響

曾129元，如今價(jià)值1W5的低功耗分析儀上的uA級(jí)電流檢測(cè)電路

ERNIE VIL 2.0，多模態(tài)模型的一種多視角預(yù)訓(xùn)練范式

徐土豆 2024-04-23 11:16 103 閱讀 1 贊 1 收藏 0 評(píng)論

在ERNIE VIL 1.0[2,3]中，作者通過擴(kuò)展Mask Language Model到多模態(tài)模型上，實(shí)現(xiàn)多模態(tài)模型的建模。其數(shù)據(jù)采用的是<Image, Caption>的數(shù)據(jù)對(duì)，如Fig 1.所示。通常caption是對(duì)圖片的視覺描述，可以由人工標(biāo)注而來，也可以像Conceptual Captions(CC)和SBU Captions(SBU)數(shù)據(jù)集一樣，從互聯(lián)網(wǎng)數(shù)據(jù)中自動(dòng)挖掘得到。模型采用的單塔雙流交互模型，如Fig 2.所示。

Fig 1. 常見的Image，Caption形式的圖文數(shù)據(jù)對(duì)。

Fig 2. ERNIE VIL 1.0 采用的模型結(jié)構(gòu)是單塔雙流交互模型，通過跨模態(tài)的MLM進(jìn)行建模。

ERNIE VIL 1.0采用單塔交互模型意味著無法采用類似于CLIP[4,5]的方式，通過擴(kuò)大batch size的方式進(jìn)行大規(guī)模對(duì)比學(xué)習(xí)，以提高表征能力。而且只采用了caption信息進(jìn)行預(yù)訓(xùn)練，不免浪費(fèi)了互聯(lián)網(wǎng)圖片中豐富的文本信息。如Fig 3.所示，網(wǎng)頁中的圖片附帶有著眾多不同類型的文本信息可供使用，如圖片的標(biāo)題，圖片的類別信息（可以是用戶自選的），圖片對(duì)應(yīng)的上下文信息等，這些文本信息或多或少都與圖片有所關(guān)聯(lián)，在預(yù)訓(xùn)練中或多或少能提供幫助。不僅如此，甚至還可以用Object Detector進(jìn)行圖片中的實(shí)體識(shí)別，對(duì)圖片進(jìn)行打tag，生成一系列文本。同時(shí)，在商業(yè)系統(tǒng)中還能通過點(diǎn)擊信號(hào)，挖掘出用戶query與圖片的樣本對(duì)<query, image>。

Fig 3. 互聯(lián)網(wǎng)中的圖片，通常附帶有眾多相關(guān)的文本信息。

在ERNIE VIL 2.0中，作者采用了雙塔模型，同時(shí)采用了CLIP的方式，通過使用112張A100 GPU和all_gather操作，將總batch size提高到了7168。并且，最主要的是，在該論文中作者提出了“多視角對(duì)比學(xué)習(xí)（multi-view contrastive learning）”，其中的多視角指的是同一個(gè)模態(tài)中（圖片、文本），不同視角的表達(dá)。比如對(duì)于圖片而言，可以對(duì)圖片進(jìn)行圖片增強(qiáng)（image augmentation），比如圖片抖動(dòng)，隨機(jī)crop等。通過這種手段能生成兩個(gè)視角的圖片， $I_{v1}$ 表示原圖， $I_{v2}$ 表示進(jìn)行圖片增強(qiáng)后的圖片。對(duì)于文本模態(tài)而言，作者認(rèn)為除了caption之外，這個(gè)圖片的其他可用文本信息就可視為是多視角文本信息，比如在本文中，作者認(rèn)為圖片的tags是其多視角文本。那么， $T_{v1}$ 為圖片的caption， $T_{v2}$ 為圖片的tags（可以是用戶自己選定的，也可以是Object Detector等模型生成的）。如Fig 4.所示，與單視角對(duì)比學(xué)習(xí)相比，同個(gè)模態(tài)內(nèi)和跨模態(tài)間都可以組建對(duì)比損失。如公式(1-1)所示，其中 $S^{+}$ 為正樣本對(duì)組合， $S^{-}$ 為負(fù)樣本對(duì)組合，其中的 $i,j$ 表示樣本編號(hào)。如公式(1-2)所示，通過infoNCE損失對(duì)(1-1)中的各類型pair進(jìn)行損失建模。整個(gè)ERNIE-VIL 2.0的模型結(jié)構(gòu)如Fig 4. ©所示。

Fig 4. （a，b）多視角對(duì)比學(xué)習(xí) 與單視角對(duì)比學(xué)習(xí)的對(duì)比。

（c）ERNIE-VIL 2.0的模型結(jié)構(gòu)框架。實(shí)驗(yàn)結(jié)果就不貼出來了，筆者感覺這種方法比較有意思的是，它可以通過多視角文本樣本擴(kuò)充一些抽象實(shí)體的語義。如Fig 5.所示，對(duì)于（a）中的caption提到的“Dinner”，“晚餐”本質(zhì)上是一個(gè)抽象的實(shí)體，沒有具象化到某一類型具體的食物，而通過Object Detector得到的tag，我們能知道圖片中存在西紅柿，洋蔥，食物等等實(shí)體，通過建立caption和tag的關(guān)聯(lián)，可以讓模型學(xué)習(xí)到Dinner的具象化語義。對(duì)于Fig 5. (b)和©而言，BMW E90是寶馬的其中一個(gè)型號(hào)，而Gatos Manx應(yīng)該是主人給貓取的愛稱。汽車型號(hào)這種語義非常稀疏，而貓的姓名更是稀疏無比，在訓(xùn)練樣本中甚至可能沒有其他共現(xiàn)的文本出現(xiàn)了，這種語義很難學(xué)習(xí)出來。而通過建立caption和tag的關(guān)聯(lián)，可以讓模型學(xué)習(xí)到BWM E90是一種白色汽車，而Gatos Manx是一只貓（當(dāng)然這個(gè)有風(fēng)險(xiǎn)，也許有人也叫這個(gè)名字呢，emm，但是如同“旺財(cái)”“福貴”在貓狗上取名的概率更大一樣，這樣學(xué)習(xí)出來的bias似乎也并不是沒有可取之處呢？）。因此通過多視角文本的多模態(tài)預(yù)訓(xùn)練方式，可以擴(kuò)充抽象語義，學(xué)習(xí)出稀疏語義。這是ERNIE VIL 2.0一文給予筆者最大的啟發(fā)。

Fig 5. 通過多視角文本預(yù)訓(xùn)練，可以擴(kuò)充抽象語義，學(xué)習(xí)出稀疏語義。

Reference

[1]. Shan, Bin, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, and Haifeng Wang. “ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text Pre-training.” arXiv preprint arXiv:2209.15270 (2022).

[2]. Yu, Fei, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, and Haifeng Wang. “Ernie-vil: Knowledge enhanced vision-language representations through scene graph.” arXiv preprint arXiv:2006.16934 (2020).

[3]. https://blog.csdn.net/LoseInVain/article/details/116275484，【論文極速看】ERNIE-VIL 一種基于場(chǎng)景圖解析的多模態(tài)表征方法

[4]. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., … & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020.

[5]. https://blog.csdn.net/LoseInVain/article/details/119516894, CLIP-對(duì)比圖文多模態(tài)預(yù)訓(xùn)練的讀后感。

聲明：本內(nèi)容為作者獨(dú)立觀點(diǎn)，不代表電子星球立場(chǎng)。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴，請(qǐng)聯(lián)系：editor@netbroad.com

覺得內(nèi)容不錯(cuò)的朋友，別忘了一鍵三連哦！

贊 1

收藏 1

關(guān)注 52

成為作者賺取收益

專題目錄下一篇

下一篇：VQ-VAE的實(shí)現(xiàn)方法分析——一種基于梯度回調(diào)的方法

全部留言

0/200

成為第一個(gè)和作者交流的人吧

^{<tr id="r8hot"></tr>}<meter id="r8hot"><p id="r8hot"></p></meter>

<meter id="r8hot"><mark id="r8hot"></mark></meter>