傳統(tǒng)的視頻搜索系統(tǒng)相關性部分主要以文本語義匹配/字面匹配為基本手段,其模型的輸入基本上都是文本,并無視覺的語義向量。如果希望在這樣一個純文本的系統(tǒng)中加入視覺語義向量(此處的視覺語義向量可以是上游模型的產(chǎn)出,比如CLIP的產(chǎn)出),那么很容易遇到所謂的『模態(tài)不均衡』的問題,即是由于文本匹配更為簡單(畢竟骨架網(wǎng)絡都是基于文本進行過很多次迭代了),那么新引入的視覺語義向量就很容易在整個訓練過程中被視為噪聲,或者被忽視,其視覺本身的作用不容易建模出來。在論文[1]中,作者同樣報告了這樣一個現(xiàn)象,并且提出了通過『模態(tài)混洗(Modality-Shuffle)』的方法進行優(yōu)化,整個框架被稱之為MBVR(Modality-Balanced Video Retrieve)。如Fig 1.所示,對于一個文本-視覺成對的樣本,通過在batch內(nèi)混洗視覺輸入,得到難負樣本
,此時對于其文本檢索
而言,
和
是匹配的,但和視覺
不匹配,通過這種方法構建出的難負樣本,有利于加強視覺特征的作用力度。
Fig 1. 模態(tài)混洗的方式構建出文本匹配,但是視覺不匹配的難負樣本。除此之外,作者還提出用動態(tài)margin去建模,不過筆者覺得并不關鍵,因此就不闡述了。從整體來看,其loss如公式(1-1)所示,其中的? ,表示Query-Doc匹配和Doc-Query匹配的損失,
表示
的匹配損失,同理
表示了
的匹配損失,而
即是通過模態(tài)混洗構建難負樣本帶來的損失,如公式(1-2)所示,其中的
表示構建出來的模態(tài)混洗負樣本。
那么如何驗證效果呢?作者進行了一些離線消融實驗,并且進行了線上實驗(該論文來自于快手,本方案應該是在線上進行了實驗),均發(fā)現(xiàn)有所收益,這些常規(guī)指標就不在這里累述了。同時作者通過定向的分析,驗證了模態(tài)混洗帶來的優(yōu)勢,如公式(1-3)所示,作者定義了一個,其中的
分別表示視覺、文本以及聯(lián)合視覺文本模型的表征,那么
指數(shù)表示了視覺在該聯(lián)合模型中,占據(jù)的重要程度與文本在該聯(lián)合模型中占據(jù)的重要程度的比例,這個值越高表示了視覺在模型中地位越重。(注,此處的聯(lián)合模型可表示為
在Fig 2 (a) 中,作者對基線模型和MBVR模型的R v t R_{vt}R vt? 分布的繪制,我們可以明顯看出引入了MBVR之后,視覺特征在視文聯(lián)合模型H ( ⋅ , ⋅ ) \mathcal{H(\cdot, \cdot)}H(⋅,⋅)中的作用力度更大了,同時作者在Fig 2 (b)和(c)中對比了正樣本和難負樣本在基線模型和MBVR模型中的打分分布變化,可以明顯看出引入了MBVR模型之后,難負樣本打分更低,和正樣本打分分布產(chǎn)生了明顯的變化。
Fig 2. (a) R值分布變化,引入了MBVR之后視覺的作用力度有明顯提升;(b)基線模型中,正樣本和難負樣本區(qū)分度小,(c)引入了MBVR之后,正樣本和難負樣本有了明顯的區(qū)分度。
筆者認為這篇論文對于工業(yè)界落地多模態(tài)特征還是具有一定指導意義的,模態(tài)不均衡的問題在實際落地過程中真實存在,作者提出的解決方法不失一種有效可行的手段,在構造MS難負樣本這塊,后續(xù)可以繼續(xù)探索,構造一些更合適的難負樣本應該是有一定收益空間的。同時,也可以引入類似于MLM的,某種跨模態(tài)mask機制,去建模模態(tài)間的關系,筆者認為同樣可以緩解模態(tài)不均衡的問題。
Reference
[1]. Wang, Xun, et al. “Modality-Balanced Embedding for Video Retrieval.” Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022.