典型的大模型管道可以分為如Fig 1所示的幾部分,其中的行為模擬(Behavior Mimic)通常是通過指令微調(diào)(Supervised Fintune, SFT)的方式,使得模型可以從預訓練后的續(xù)寫模型,變?yōu)橐粋€可以遵循用戶指令進行回答的模型,通過偏好對齊(Preference Alignment)能夠使得回答更具有人類偏好。存在不少工作認為行為模擬只是對模型回答的格式進行規(guī)范,是一種偏向于『記憶(Memorize)』的過程 [2,3],而偏好對齊才是能進一步提高模型泛化能力的關(guān)鍵 [3]。至于說到推理時擴展(Inference-time Scaling),則是考慮在推理階段采用復雜的答案采樣/答案改寫方式,提升模型的最終性能,可參考筆者在博文 [4] 中的介紹。
Fig 1. 典型的大模型訓練和推理管道。
Best-of-N (下文簡稱BoN)采樣是推理時擴展的一種經(jīng)典做法,指的是給定一個提示詞x, 大模型對其進行采樣N次,得到N個完整回答
,
,通過獎勵模型分別打分得到N個獎勵打分
,取其打分最高的作為BoN結(jié)果。整個過程可以表示為公式 (1) 所示
作者在文中證明了BoN結(jié)果是考慮了KL散度約束情況下的漸進最優(yōu)策略,在論文 [5] 中同樣進行了這一點的證明,整個過程比較復雜,筆者也沒完全看懂,盡量挑一些關(guān)鍵結(jié)論和過程進行解釋。
首先我們看到偏好對齊,偏好對齊的目標是對于一個SFT后的模型,稱之為,我們希望學習出一個新模型
,
應該在某個指標層面上要優(yōu)于
。為了使得訓練過程可控,我們也不希望
太過遠離
,可以考慮用KL散度去度量這兩者的距離,其中
為給定了提示詞x情況下的KL散度,而
則是對提示詞集合D進行求期望得到的KL散度。KL散度取值范圍為
,越小表示兩個分布之間差別越小。
一種可以考慮衡量優(yōu)于
的指標是勝率(win-rate),定義如下公式(3)所示,也就是通過獎勵函數(shù)去判斷
優(yōu)于
的概率。
不妨可以將偏好對齊看成是一個探索&利用(Explore and Exploit)的過程,如Fig 2所示,消耗KL散度距離衡量和初始模型的偏離程度,可以認為是探索程度,用獎勵模型新探索的模型進行評估,則可看成是利用過程。因此KL距離是一種可消耗的資源,這個觀點在一些工作中也有所體現(xiàn),可參考 [6]。為何不希望新策略太過于偏離初始策略呢?筆者的理解是:
如果不在訓練過程中對此進行約束,新策略可能會容易出現(xiàn)大幅度偏離初始策略,導致整個訓練過程不穩(wěn)定且難以控制。獎勵模型通常是在初始策略模型的基礎(chǔ)上,采樣后進行人工標注樣本訓練得到的,也就是說如果新策略模型太過于遠離初始策略模型,那么很可能會出現(xiàn)獎勵模型無法很好地衡量新策略模型效果的情況,從而導致過擬合。
Fig 2. 在偏好對齊過程中,通過消耗KL距離探索新策略模型,而獎勵模型作為『法官』進行效果判斷。偏好對齊的方法整體有兩種,第一個通過人工反饋的強化學習方法(RLHF),如公式(4)所述;
第二種則是通過對比式方法(Contrastive methods),典型的如DPO方法,如公式(5)所示。
RLHF方式顯式地引入KL散度約束項,而DPO方法則通過新策略模型分布和初始策略模型分布進行比較的方式,都一定程度上約束了新策略模型不至于偏離初始策略模型。如果獎勵模型是Bradley-Terry模型,那么有:
作者文中說因此RLHF和DPO的解析解則可以表示為(對此,筆者不知道具體推導過程,望請教):
也就是說新策略模型是對初始策略模型的加權(quán),而權(quán)值會收到獎勵模型的影響。作者認為不僅對于RLHF和DPO,對于包括BoN方式在內(nèi)的一切對齊策略來說,存在統(tǒng)一的表達,即是有:
其中的是一個非減函數(shù),會收到不同提示詞x的影響?;诖耍梢酝茖С鯞oN方式的勝率為(具體過程參考原論文):
那么最優(yōu)策略的勝率如何呢?首先我們定義最優(yōu)策略,就是在給定的KL散度情況下能取得盡可能高的勝率,如公式(10)所示:
此時可以推導出最優(yōu)策略模型為:
那么最優(yōu)策略的勝率可以表示為
如果對BoN和最優(yōu)策略分別繪制曲線圖的話,如Fig 3所示,會發(fā)現(xiàn)BoN方式是在有KL散度約束下的漸進的最優(yōu)策略。
Fig 3. 就勝率與KL散度的關(guān)系而言,BoN本質(zhì)上與最優(yōu)策略表現(xiàn)一致。就勝率與KL散度的關(guān)系而言,BoN本質(zhì)上與最優(yōu)策略表現(xiàn)一致。 左圖:BoN與最優(yōu)策略的勝率隨KL散度變化曲線。右圖:不同n值下最優(yōu)策略與BoN策略的勝率差異。
那么問題來了,如何將模型的BoN的結(jié)果蒸餾到模型自身上呢?本文提出了BoNBoN方式,損失函數(shù)如公式(13)所示
損失的第一項為SFT損失,其
為BoN結(jié)果,顯然這種方法只是采用了BoN結(jié)果作為模仿目標,并沒有充分利用數(shù)據(jù),比如Worst-of-N(WoN)部分的數(shù)據(jù)。
而損失的第二項是一個對比式的損失IPO(是DPO的升級,添加了正則項減少過擬合),關(guān)于這里的正則項文中附錄有推導,博文就不贅述了。IPO-BoN損失不僅采用了BoN結(jié)果作為正向樣本(也就是
,還采用了WoN結(jié)果作為負向樣本(也就是
? ),數(shù)據(jù)的利用率更高。
在實驗部分,作者比較了Summarization和helpful and Harmless這兩塊任務,如Fig 4.所示,其中的黑線(BoN theoretical)是根據(jù)公式(9)繪制出來的,而BoN Sampling則是真實采樣得到的結(jié)果,可以發(fā)現(xiàn)是能夠符合曲線的。我們看這個圖,應該從兩個維度看:
勝率越高,說明相比初始策略模型效果更好越接近Reference Model(無論是KL散度還是平均響應長度),說明消耗的KL距離越少,則是更占優(yōu)勢(筆者認為是勝率計算更加準確)從這個分析角度看,我們發(fā)現(xiàn)BoNBoN方法在消耗更少KL距離(或者和初始策略模型更加接近長度的平均響應長度)的情況下,能取得更高的勝率。此外,我們看到DPO BoN 效果持續(xù)遠遠優(yōu)于DPO original HH,后者是采用HH數(shù)據(jù)(也就是所謂的off-policy的數(shù)據(jù)),而前者則來自于模型自身的BoN結(jié)果組建偏序數(shù)據(jù),也就是所謂的on-policy數(shù)據(jù)。從這個結(jié)果,我們得到一個結(jié)論是,應當盡可能采用on-policy數(shù)據(jù)進行模型偏好對齊,即便這些結(jié)果可能相對來說比較弱(對比其他更好的模型采樣或者標注)。
Fig 4. BoNBoN在實現(xiàn)高勝率的同時,對生成過程中非目標方面的影響極?。ㄒ簿褪瞧x初始策略模型的程度)。每個數(shù)據(jù)點代表采用特定對齊方法的模型,我們使用一個Ranker測量其相對于基礎(chǔ)模型的勝率。為評估非目標行為的改變,我們同時測量了估計的KL散度(左圖)和平均響應長度(右圖)。上方:BoNBoN與基線模型在摘要任務中的對比結(jié)果。
下方:BoNBoN與基線模型在單輪對話任務中的對比結(jié)果。讀后感筆者看完這篇文章后,第一感覺就是公式好多… 其實整個蒸餾BoN結(jié)果的思路很直接,就是在SFT的基礎(chǔ)上添加了一個DPO類的損失(或者反過來說,在DPO偏好對齊的基礎(chǔ)上加了一個SFT行為模仿),其實整篇文章很多篇幅在證明BoN是KL約束下的漸進最優(yōu)策略,然后想辦法去接近BoN。因此我總結(jié)從這篇文章得到的收獲的話:
BoN是LLM的KL約束限制下的漸進最優(yōu)策略新策略模型可以表示為初始策略模型的分布加權(quán)on-policy vs off-policy 數(shù)據(jù)作為偏好對齊,應當盡可能采用前者SFT+DPO類損失能夠更加充分利用數(shù)據(jù)
Reference
[1]. Gui, Lin, Cristina Gârbacea, and Victor Veitch. “Bonbon alignment for large language models and the sweetness of best-of-n sampling.” arXiv preprint arXiv:2406.00832 (2024). aka BoNBoN
[2]. Zhou, Chunting, Pengfei Liu, Puxin Xu, Srinivasan Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma et al. “Lima: Less is more for alignment.” Advances in Neural Information Processing Systems 36 (2023): 55006-55021. aka LIMA
[3]. Chu, Tianzhe, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, and Yi Ma. “Sft memorizes, rl generalizes: A comparative study of foundation model post-training.” arXiv preprint arXiv:2501.17161 (2025).
[4]. 《大模型推理時的尺度擴展定律》, https://fesianxu.github.io/2025/03/02/test-time-scaling-laws-20250302/
[5]. Yang, Joy Qiping, Salman Salamatian, Ziteng Sun, Ananda Theertha Suresh, and Ahmad Beirami. “Asymptotics of language model alignment.” In 2024 IEEE International Symposium on Information Theory (ISIT), pp. 2027-2032. IEEE, 2024.
[6]. 《獎勵模型中的尺度擴展定律和獎勵劫持》, https://fesianxu.github.io/2025/02/09/scaling-law-in-reward-model-20250209/