性无码一区二区三区在线观看,少妇被爽到高潮在线观看,午夜精品一区二区三区,无码中文字幕人妻在线一区二区三区,无码精品国产一区二区三区免费

認證：優(yōu)質(zhì)創(chuàng)作者

所在專題目錄查看專題

圖文多模態(tài)語義融合前的語義對齊——一種單雙混合塔多模態(tài)模型

在多模態(tài)模型訓練時，如何合適地融合單模態(tài)損失

FILIP：一種基于交互的細粒度圖文預訓練模型

ERNIE VIL 2.0，多模態(tài)模型的一種多視角預訓練范式

VQ-VAE的實現(xiàn)方法分析——一種基于梯度回調(diào)的方法

【論文極速讀】視頻檢索中的模態(tài)均衡方法

作者動態(tài) 更多

給定計算預算下的最佳LLM模型尺寸與預訓練數(shù)據(jù)量分配

2天前

大模型推理時的尺度擴展定律

3天前

世界多胞體與世界模型

1星期前

獎勵模型中的尺度擴展定律和獎勵劫持

1星期前

MeCo——給預訓練數(shù)據(jù)增加源信息,就能減少33%的訓練量并且提升效果

2星期前

工程師都在看

7.6KW裂相并網(wǎng)逆變器系統(tǒng)設計

基于stm32采用PWM驅動伺服控制器學習筆記

反激式電源為什么上電最容易燒MOS管？

從0到1設計BUCK(11) | 配置欠壓閉鎖的閾值，給電源加一道“安全門”

從0到1設計BUCK(12) | 配置反饋電阻，你的輸出電壓由你定義

反激式變壓器制作流程

開關電源模式大揭秘：BUCK電路如何“智能”應對負載變化？

驅動電路設計（十）——柵極電荷和應用

Sallen-Key濾波器的高頻饋通現(xiàn)象及其對輸入阻抗的影響

曾129元，如今價值1W5的低功耗分析儀上的uA級電流檢測電路

【論文極速讀】視頻檢索中的模態(tài)均衡方法

徐土豆 2023-12-20 08:36 38 閱讀 1 贊 2 收藏 0 評論

傳統(tǒng)的視頻搜索系統(tǒng)相關性部分主要以文本語義匹配/字面匹配為基本手段，其模型的輸入基本上都是文本，并無視覺的語義向量。如果希望在這樣一個純文本的系統(tǒng)中加入視覺語義向量（此處的視覺語義向量可以是上游模型的產(chǎn)出，比如CLIP的產(chǎn)出），那么很容易遇到所謂的『模態(tài)不均衡』的問題，即是由于文本匹配更為簡單（畢竟骨架網(wǎng)絡都是基于文本進行過很多次迭代了），那么新引入的視覺語義向量就很容易在整個訓練過程中被視為噪聲，或者被忽視，其視覺本身的作用不容易建模出來。在論文[1]中，作者同樣報告了這樣一個現(xiàn)象，并且提出了通過『模態(tài)混洗（Modality-Shuffle）』的方法進行優(yōu)化，整個框架被稱之為MBVR（Modality-Balanced Video Retrieve）。如Fig 1.所示，對于一個文本-視覺成對的樣本 $<Q_i, T_i, V_i>$ ，通過在batch內(nèi)混洗視覺輸入，得到難負樣本 $<Q_i, T_i, V_j>, i \neq j, i,j \in \mathcal{B}$ ，此時對于其文本檢索 $Q_i$ 而言， $Q_i$ 和 $T_i$ 是匹配的，但和視覺 $V_j$ 不匹配，通過這種方法構建出的難負樣本，有利于加強視覺特征的作用力度。

Fig 1. 模態(tài)混洗的方式構建出文本匹配，但是視覺不匹配的難負樣本。除此之外，作者還提出用動態(tài)margin去建模，不過筆者覺得并不關鍵，因此就不闡述了。從整體來看，其loss如公式(1-1)所示，其中的 $\mathcal{L}_{bi} = \mathcal{L}_{qm} + \mathcal{L}_{mq}L$ ? ，表示Query-Doc匹配和Doc-Query匹配的損失， $\mathcal{L}_{v}$ 表示 $<Q_i, V_i>$ 的匹配損失，同理 $\mathcal{L}_{t}$ 表示了 $<Q_i, T_i>$ 的匹配損失，而 $\mathcal{L}_{ms}$ 即是通過模態(tài)混洗構建難負樣本帶來的損失，如公式(1-2)所示，其中的 $\mathcal{M}_{ms}$ 表示構建出來的模態(tài)混洗負樣本。

那么如何驗證效果呢？作者進行了一些離線消融實驗，并且進行了線上實驗（該論文來自于快手，本方案應該是在線上進行了實驗），均發(fā)現(xiàn)有所收益，這些常規(guī)指標就不在這里累述了。同時作者通過定向的分析，驗證了模態(tài)混洗帶來的優(yōu)勢，如公式(1-3)所示，作者定義了一個 $R_{vt}$ ，其中的 $\mathcal{F}_v,\mathcal{F}_t,\mathcal{F}_m$ 分別表示視覺、文本以及聯(lián)合視覺文本模型的表征，那么 $R_{vt}$ 指數(shù)表示了視覺在該聯(lián)合模型中，占據(jù)的重要程度與文本在該聯(lián)合模型中占據(jù)的重要程度的比例，這個值越高表示了視覺在模型中地位越重。（注，此處的聯(lián)合模型可表示為 $\mathcal{L}_{m} = \mathcal{H}(\mathcal{F}_v,\mathcal{F}_t)$

在Fig 2 (a) 中，作者對基線模型和MBVR模型的R v t R_{vt}R vt? 分布的繪制，我們可以明顯看出引入了MBVR之后，視覺特征在視文聯(lián)合模型H ( ⋅ , ⋅ ) \mathcal{H(\cdot, \cdot)}H(⋅,⋅)中的作用力度更大了，同時作者在Fig 2 （b）和（c）中對比了正樣本和難負樣本在基線模型和MBVR模型中的打分分布變化，可以明顯看出引入了MBVR模型之后，難負樣本打分更低，和正樣本打分分布產(chǎn)生了明顯的變化。

Fig 2. (a) R值分布變化，引入了MBVR之后視覺的作用力度有明顯提升；（b）基線模型中，正樣本和難負樣本區(qū)分度小，（c）引入了MBVR之后，正樣本和難負樣本有了明顯的區(qū)分度。

筆者認為這篇論文對于工業(yè)界落地多模態(tài)特征還是具有一定指導意義的，模態(tài)不均衡的問題在實際落地過程中真實存在，作者提出的解決方法不失一種有效可行的手段，在構造MS難負樣本這塊，后續(xù)可以繼續(xù)探索，構造一些更合適的難負樣本應該是有一定收益空間的。同時，也可以引入類似于MLM的，某種跨模態(tài)mask機制，去建模模態(tài)間的關系，筆者認為同樣可以緩解模態(tài)不均衡的問題。

Reference

[1]. Wang, Xun, et al. “Modality-Balanced Embedding for Video Retrieval.” Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022.

聲明：本內(nèi)容為作者獨立觀點，不代表電子星球立場。未經(jīng)允許不得轉載。授權事宜與稿件投訴，請聯(lián)系：editor@netbroad.com

覺得內(nèi)容不錯的朋友，別忘了一鍵三連哦！

贊 1

收藏 2

關注 52

成為作者賺取收益

全部留言

0/200

成為第一個和作者交流的人吧