假如一個多模態(tài)分類模型由M個模態(tài)信息組成(如RGB,光流,音頻,深度信息等等),每一個模態(tài)的輸入記為,每一個模態(tài)的特征提取網(wǎng)絡(luò)記為
,其中
,那么對于一個后融合(Late-fusion)[2]的多模態(tài)分類模型來說,如Fig1.1©所示,其后融合的多模態(tài)特征由拼接(concatenate)操作構(gòu)成,因此多模態(tài)特征表示為
,其中? \bigoplus?表示拼接操作。最后將會用f m f_mf m? 進行訓(xùn)練和分類。假設(shè)訓(xùn)練集為
,其中
為第i個訓(xùn)練樣本而
為第i個訓(xùn)練樣本的標簽,那么對于多模態(tài)分類而言,其損失為:
容易知道對于單模態(tài)分類而言,其損失為:
Fig 1.1 多模態(tài)聯(lián)合訓(xùn)練,采用后融合的方式進行不同模態(tài)的信息融合。
從理想情況看,由于多模態(tài)特征是由各個模態(tài)的特征拼接而成的,通過訓(xùn)練學(xué)習(xí)出合適的分類器參數(shù) ,那么多模態(tài)損失(1-1)就可以崩塌到單模態(tài)損失(1-2),也就是說最壞情況下多模態(tài)訓(xùn)練得到的結(jié)果,都應(yīng)該要比單模態(tài)訓(xùn)練的要好。然而結(jié)果并不是如此,如Fig 1.2(a)所示,以在Kinetics上的結(jié)果為例,最好的單模態(tài)結(jié)果總是要顯著比多模態(tài)結(jié)果(Audio,RGB,Optical Flow三者的任意組合)要好。不僅如此,如Fig 1.2(b)所示,即便采用了一些流行的正則手段,也無法得到有效的效果提升。這不是偶然,[1]的作者認為這是由于不同模態(tài)的信息陷入過擬合的節(jié)奏是不同的,而通過相同的訓(xùn)練策略對多模態(tài)特征進行訓(xùn)練,可能對于整體而言并不能達到最優(yōu)的狀態(tài)。為此,對于多模態(tài)損失而言需要適當(dāng)?shù)剡M行加權(quán),去適應(yīng)不同模態(tài)學(xué)習(xí)的節(jié)奏,假設(shè)權(quán)系數(shù)
滿足
,其中的k kk是第k kk個模態(tài),那么最終的損失為:
其中的模態(tài)表示的是拼接起來后的多模態(tài)特征,也即是式子(1-1)所示的損失。關(guān)鍵問題有兩個:
這些模態(tài)均衡系數(shù)應(yīng)該怎么確定這些模態(tài)均衡系數(shù)是在線計算(動態(tài)更新)還是離線計算(靜態(tài)計算后使用)顯然,均衡系數(shù)是一個超參數(shù),單純靠網(wǎng)格搜索或人工調(diào)參肯定不顯示,而且無法解決關(guān)鍵問題2,也即是動態(tài)更新。因此作者提出了一種確定多模態(tài)均衡系數(shù)的方法。
ig 1.2 (a)多模態(tài)訓(xùn)練得到的模型總是比最優(yōu)的單模態(tài)訓(xùn)練模型更差;(b) 采用了一些常用的正則手段也無法獲得有效的效果提升。
首先需要定義出一個度量以衡量該模態(tài)的過擬合與泛化情況,如Fig 1.3所示,作者定義了一種綜合度量模型的過擬合與泛化情況的指標,其定義為過擬合程度與泛化程度的比值的絕對值,如式子(1-4)所示。其中 ,而
,表示為訓(xùn)練損失和驗證損失的差值,其可被認為是過擬合大小,顯然該值越大,過擬合程度越大。而
表示第N個epoch與第
個epoch之間的過擬合程度差值。那怎么表示泛化能力呢?可以通過第N個epoch與第
個epoch之間的驗證損失
的差值表示兩個checkpoint之間的泛化能力差值。也就是說可以將式子(1-4)認為是兩個epoch的checkpoint之間的過擬合程度與泛化程度比值的差分。顯然我們希望OGR指標越小越好。注意此處的
表示理想中的真實驗證損失,通常會用有限的驗證集損失去近似,表示為
。后續(xù)我們都用
代替
。
顯然有
然而對于欠擬合的模型來說,可能? 足夠小也會導(dǎo)致OGR指標也很小,但是這并沒有意義,因為模型仍然未學(xué)習(xí)好。因此此處用無窮小量進行衡量,也即是有:
當(dāng)然,由于此處的n nn有實際的模型含義(一個step),也就是說其實應(yīng)該是n → 1 n\rightarrow 1n→1,也就是只有1個step的參數(shù)更新。對此我們對損失進行一階泰勒展開有:
結(jié)合(1-5)和(1-7)我們有:
因此有:
Fig 1.3 定義出OGR以描述該模態(tài)模型下的過擬合與泛化情況。
此時我們對每個模態(tài)的梯度? 進行預(yù)估,這個預(yù)估通過各模態(tài)對應(yīng)的分類器梯度反向求導(dǎo)得到,表示為
? ,當(dāng)滿足
,其中
時,并且給定約束
,我們的對
求最小值以求得最佳的模態(tài)均衡參數(shù),表示為(1-10):
原文[1]中對其進行了解析解的證明,這里就不展開了,其解析解如(1-11):
其中,
是標準化常數(shù)項。由此可計算出最佳的模態(tài)均衡系數(shù),回答了我們之前提出的第一個問題。
在實踐中,再強調(diào)下,正如一開始所說的,無法得到,因此通常會從訓(xùn)練集中劃出一部分V作為子集去驗證,得到
,用此去近似
。此時我們可以正式去描述Gradient-Blending(GB)算法了,我們的數(shù)據(jù)集包括訓(xùn)練集T TT,訓(xùn)練集中劃出來的驗證集V,k 個輸入模態(tài)
以及一個多模態(tài)拼接得到的特征
。對于GB算法來說,有兩種形式:
離線Gradient-Blending: 只計算一次模態(tài)均衡參數(shù),并且在以后的訓(xùn)練中都一直固定。在線Gradient-Blending: 將會定期(比如每n個epoch-也稱之為super epoch)更新,并且用新的模態(tài)均衡參數(shù)參與后續(xù)的訓(xùn)練。
Fig 1.4 Gradient-Blending用于模態(tài)均衡系數(shù)估計;離線與在線Gradient-Blending。
離在線GB算法和GB估計模態(tài)均衡參數(shù)的算法見Fig 1.4,作者發(fā)現(xiàn)采用了GB估計模態(tài)均衡參數(shù)后,無論是離線還是在線的G-Blend結(jié)合了多模態(tài)分類模型訓(xùn)練后,效果都比單模態(tài)模型有著顯著的提升,并且離線效果僅僅比在線效果差一些,而在線G-Blend的計算代價遠比離線高,因此后續(xù)的實驗都是用離線G-Blend展開的。
Fig 1.8 (a)單模態(tài)之間有著更為細粒度的知識;(b)在多模態(tài)訓(xùn)練中容易被『遺忘』。
Reference
[1]. Wang, W., Tran, D., & Feiszli, M. (2020). What makes training multi-modal classification networks hard?. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 12695-12705).
[2]. https://blog.csdn.net/LoseInVain/article/details/105545703, 《萬字長文漫談視頻理解》 by FesianXu
[3]. https://fesian.blog.csdn.net/article/details/120364242, 《圖文搜索系統(tǒng)中的多模態(tài)模型:將MoCo應(yīng)用在多模態(tài)對比學(xué)習(xí)上》 by FesianXu
[4]. https://fesian.blog.csdn.net/article/details/119516894, 《CLIP-對比圖文多模態(tài)預(yù)訓(xùn)練的讀后感》 by FesianXu
[5]. https://fesian.blog.csdn.net/article/details/121699533, 《WenLan 2.0:一種不依賴Object Detection的大規(guī)模圖文匹配預(yù)訓(xùn)練模型 & 數(shù)據(jù)+算力=大力出奇跡》 by FesianXu