性无码一区二区三区在线观看,少妇被爽到高潮在线观看,午夜精品一区二区三区,无码中文字幕人妻在线一区二区三区,无码精品国产一区二区三区免费

徐土豆
認證:優(yōu)質(zhì)創(chuàng)作者
所在專題目錄 查看專題
圖文多模態(tài)語義融合前的語義對齊——一種單雙混合塔多模態(tài)模型
在多模態(tài)模型訓練時,如何合適地融合單模態(tài)損失
FILIP: 一種基于交互的細粒度圖文預訓練模型
ERNIE VIL 2.0,多模態(tài)模型的一種多視角預訓練范式
VQ-VAE的實現(xiàn)方法分析——一種基于梯度回調(diào)的方法
【論文極速讀】視頻檢索中的模態(tài)均衡方法
作者動態(tài) 更多
給定計算預算下的最佳LLM模型尺寸與預訓練數(shù)據(jù)量分配
2天前
大模型推理時的尺度擴展定律
3天前
世界多胞體與世界模型
1星期前
獎勵模型中的尺度擴展定律和獎勵劫持
1星期前
MeCo——給預訓練數(shù)據(jù)增加源信息,就能減少33%的訓練量并且提升效果
2星期前

【論文極速讀】視頻檢索中的模態(tài)均衡方法

傳統(tǒng)的視頻搜索系統(tǒng)相關性部分主要以文本語義匹配/字面匹配為基本手段,其模型的輸入基本上都是文本,并無視覺的語義向量。如果希望在這樣一個純文本的系統(tǒng)中加入視覺語義向量(此處的視覺語義向量可以是上游模型的產(chǎn)出,比如CLIP的產(chǎn)出),那么很容易遇到所謂的『模態(tài)不均衡』的問題,即是由于文本匹配更為簡單(畢竟骨架網(wǎng)絡都是基于文本進行過很多次迭代了),那么新引入的視覺語義向量就很容易在整個訓練過程中被視為噪聲,或者被忽視,其視覺本身的作用不容易建模出來。在論文[1]中,作者同樣報告了這樣一個現(xiàn)象,并且提出了通過『模態(tài)混洗(Modality-Shuffle)』的方法進行優(yōu)化,整個框架被稱之為MBVR(Modality-Balanced Video Retrieve)。如Fig 1.所示,對于一個文本-視覺成對的樣本,通過在batch內(nèi)混洗視覺輸入,得到難負樣本,此時對于其文本檢索而言,是匹配的,但和視覺 不匹配,通過這種方法構建出的難負樣本,有利于加強視覺特征的作用力度。

Fig 1. 模態(tài)混洗的方式構建出文本匹配,但是視覺不匹配的難負樣本。除此之外,作者還提出用動態(tài)margin去建模,不過筆者覺得并不關鍵,因此就不闡述了。從整體來看,其loss如公式(1-1)所示,其中的? ,表示Query-Doc匹配和Doc-Query匹配的損失,表示的匹配損失,同理表示了的匹配損失,而即是通過模態(tài)混洗構建難負樣本帶來的損失,如公式(1-2)所示,其中的表示構建出來的模態(tài)混洗負樣本。

那么如何驗證效果呢?作者進行了一些離線消融實驗,并且進行了線上實驗(該論文來自于快手,本方案應該是在線上進行了實驗),均發(fā)現(xiàn)有所收益,這些常規(guī)指標就不在這里累述了。同時作者通過定向的分析,驗證了模態(tài)混洗帶來的優(yōu)勢,如公式(1-3)所示,作者定義了一個,其中的分別表示視覺、文本以及聯(lián)合視覺文本模型的表征,那么指數(shù)表示了視覺在該聯(lián)合模型中,占據(jù)的重要程度與文本在該聯(lián)合模型中占據(jù)的重要程度的比例,這個值越高表示了視覺在模型中地位越重。(注,此處的聯(lián)合模型可表示為

在Fig 2 (a) 中,作者對基線模型和MBVR模型的R v t R_{vt}R vt? 分布的繪制,我們可以明顯看出引入了MBVR之后,視覺特征在視文聯(lián)合模型H ( ⋅ , ⋅ ) \mathcal{H(\cdot, \cdot)}H(⋅,⋅)中的作用力度更大了,同時作者在Fig 2 (b)和(c)中對比了正樣本和難負樣本在基線模型和MBVR模型中的打分分布變化,可以明顯看出引入了MBVR模型之后,難負樣本打分更低,和正樣本打分分布產(chǎn)生了明顯的變化。

Fig 2. (a) R值分布變化,引入了MBVR之后視覺的作用力度有明顯提升;(b)基線模型中,正樣本和難負樣本區(qū)分度小,(c)引入了MBVR之后,正樣本和難負樣本有了明顯的區(qū)分度。

筆者認為這篇論文對于工業(yè)界落地多模態(tài)特征還是具有一定指導意義的,模態(tài)不均衡的問題在實際落地過程中真實存在,作者提出的解決方法不失一種有效可行的手段,在構造MS難負樣本這塊,后續(xù)可以繼續(xù)探索,構造一些更合適的難負樣本應該是有一定收益空間的。同時,也可以引入類似于MLM的,某種跨模態(tài)mask機制,去建模模態(tài)間的關系,筆者認為同樣可以緩解模態(tài)不均衡的問題。

Reference

[1]. Wang, Xun, et al. “Modality-Balanced Embedding for Video Retrieval.” Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022.

聲明:本內(nèi)容為作者獨立觀點,不代表電子星球立場。未經(jīng)允許不得轉載。授權事宜與稿件投訴,請聯(lián)系:editor@netbroad.com
覺得內(nèi)容不錯的朋友,別忘了一鍵三連哦!
贊 1
收藏 2
關注 52
成為作者 賺取收益
全部留言
0/200
成為第一個和作者交流的人吧