性无码一区二区三区在线观看,少妇被爽到高潮在线观看,午夜精品一区二区三区,无码中文字幕人妻在线一区二区三区,无码精品国产一区二区三区免费

認證：優(yōu)質(zhì)創(chuàng)作者

作者動態(tài)

大模型推理時的尺度擴展定律

21分鐘前

世界多胞體與世界模型

5天前

獎勵模型中的尺度擴展定律和獎勵劫持

6天前

MeCo——給預訓練數(shù)據(jù)增加源信息,就能減少33%的訓練量并且提升效果

1星期前

DoReMi——一種通過代理模型估計大模型預訓練最佳數(shù)據(jù)配比的方法

2星期前

工程師都在看

7.6KW裂相并網(wǎng)逆變器系統(tǒng)設計

反激式電源為什么上電最容易燒MOS管？

LLC諧振變換器（三）-設計步驟

測試電機波形方法及問題經(jīng)驗

從0到1設計BUCK(11) | 配置欠壓閉鎖的閾值，給電源加一道“安全門”

開關(guān)電源模式大揭秘：BUCK電路如何“智能”應對負載變化？

從0到1設計BUCK(12) | 配置反饋電阻，你的輸出電壓由你定義

基于stm32采用PWM驅(qū)動伺服控制器學習筆記

車規(guī)芯片認證標準AEC-Q100-H中文版及內(nèi)容解讀（正文部分）

嵌入式閑聊-優(yōu)質(zhì)學習資料獲取

LLM結(jié)合行為模仿和偏好對齊進行Best-of-N對齊的方法

徐土豆 3星期前 47 閱讀 3 贊 3 收藏 0 評論

典型的大模型管道可以分為如Fig 1所示的幾部分，其中的行為模擬（Behavior Mimic）通常是通過指令微調(diào)（Supervised Fintune, SFT）的方式，使得模型可以從預訓練后的續(xù)寫模型，變?yōu)橐粋€可以遵循用戶指令進行回答的模型，通過偏好對齊（Preference Alignment）能夠使得回答更具有人類偏好。存在不少工作認為行為模擬只是對模型回答的格式進行規(guī)范，是一種偏向于『記憶（Memorize）』的過程 [2,3]，而偏好對齊才是能進一步提高模型泛化能力的關(guān)鍵 [3]。至于說到推理時擴展（Inference-time Scaling），則是考慮在推理階段采用復雜的答案采樣/答案改寫方式，提升模型的最終性能，可參考筆者在博文 [4] 中的介紹。

Fig 1. 典型的大模型訓練和推理管道。

Best-of-N （下文簡稱BoN）采樣是推理時擴展的一種經(jīng)典做法，指的是給定一個提示詞x，大模型 $\pi(y|x)$ 對其進行采樣N次，得到N個完整回答 $y N y_1, \cdots$ , $y_N$ ，通過獎勵模型分別打分得到N個獎勵打分 $r(x, y_i), i=1,\cdots,N$ ，取其打分最高的作為BoN結(jié)果。整個過程可以表示為公式 (1) 所示

作者在文中證明了BoN結(jié)果是考慮了KL散度約束情況下的漸進最優(yōu)策略，在論文 [5] 中同樣進行了這一點的證明，整個過程比較復雜，筆者也沒完全看懂，盡量挑一些關(guān)鍵結(jié)論和過程進行解釋。

首先我們看到偏好對齊，偏好對齊的目標是對于一個SFT后的模型，稱之為 $\pi_{0}$ ，我們希望學習出一個新模型 $\pi_r$ ， $\pi_r$ 應該在某個指標層面上要優(yōu)于 $\pi_0$ 。為了使得訓練過程可控，我們也不希望 $\pi_r$ 太過遠離 $\pi_0$ ，可以考慮用KL散度去度量這兩者的距離，其中 $\mathbb{D}_{\text{KL}}(\pi_r\|\pi_0\mid x)$ 為給定了提示詞x情況下的KL散度，而 $\mathbb{D}_{\text{KL}}(\pi_r\|\pi_0)$ 則是對提示詞集合D進行求期望得到的KL散度。KL散度取值范圍為 $[0, +\infty)$ ，越小表示兩個分布之間差別越小。

一種可以考慮衡量 $\pi_r$ 優(yōu)于 $\pi_0$ 的指標是勝率（win-rate），定義如下公式（3）所示，也就是通過獎勵函數(shù)去判斷 $\pi_r$ 優(yōu)于 $\pi_0$ 的概率。

不妨可以將偏好對齊看成是一個探索&利用（Explore and Exploit）的過程，如Fig 2所示，消耗KL散度距離衡量和初始模型的偏離程度，可以認為是探索程度，用獎勵模型新探索的模型進行評估，則可看成是利用過程。因此KL距離是一種可消耗的資源，這個觀點在一些工作中也有所體現(xiàn)，可參考 [6]。為何不希望新策略太過于偏離初始策略呢？筆者的理解是：

如果不在訓練過程中對此進行約束，新策略可能會容易出現(xiàn)大幅度偏離初始策略，導致整個訓練過程不穩(wěn)定且難以控制。獎勵模型通常是在初始策略模型的基礎(chǔ)上，采樣后進行人工標注樣本訓練得到的，也就是說如果新策略模型太過于遠離初始策略模型，那么很可能會出現(xiàn)獎勵模型無法很好地衡量新策略模型效果的情況，從而導致過擬合。

Fig 2. 在偏好對齊過程中，通過消耗KL距離探索新策略模型，而獎勵模型作為『法官』進行效果判斷。偏好對齊的方法整體有兩種，第一個通過人工反饋的強化學習方法（RLHF），如公式（4）所述；

第二種則是通過對比式方法（Contrastive methods），典型的如DPO方法，如公式（5）所示。

RLHF方式顯式地引入KL散度約束項，而DPO方法則通過新策略模型分布和初始策略模型分布進行比較的方式，都一定程度上約束了新策略模型不至于偏離初始策略模型。如果獎勵模型是Bradley-Terry模型，那么有：

作者文中說因此RLHF和DPO的解析解則可以表示為（對此，筆者不知道具體推導過程，望請教）：

也就是說新策略模型是對初始策略模型的加權(quán)，而權(quán)值會收到獎勵模型的影響。作者認為不僅對于RLHF和DPO，對于包括BoN方式在內(nèi)的一切對齊策略來說，存在統(tǒng)一的表達，即是有：

其中的 $f_x$ 是一個非減函數(shù)，會收到不同提示詞x的影響?；诖耍梢酝茖С鯞oN方式的勝率為（具體過程參考原論文）:

那么最優(yōu)策略的勝率如何呢？首先我們定義最優(yōu)策略，就是在給定的KL散度情況下能取得盡可能高的勝率，如公式（10）所示：

此時可以推導出最優(yōu)策略模型為：

那么最優(yōu)策略的勝率可以表示為

如果對BoN和最優(yōu)策略分別繪制曲線圖的話，如Fig 3所示，會發(fā)現(xiàn)BoN方式是在有KL散度約束下的漸進的最優(yōu)策略。

Fig 3. 就勝率與KL散度的關(guān)系而言，BoN本質(zhì)上與最優(yōu)策略表現(xiàn)一致。就勝率與KL散度的關(guān)系而言，BoN本質(zhì)上與最優(yōu)策略表現(xiàn)一致。左圖：BoN與最優(yōu)策略的勝率隨KL散度變化曲線。右圖：不同n值下最優(yōu)策略與BoN策略的勝率差異。

那么問題來了，如何將模型的BoN的結(jié)果蒸餾到模型自身上呢？本文提出了BoNBoN方式，損失函數(shù)如公式（13）所示

損失的第一項 $\mathcal{L}_{SFT-BoN}$ 為SFT損失，其 $y_{(n)}$ 為BoN結(jié)果，顯然這種方法只是采用了BoN結(jié)果作為模仿目標，并沒有充分利用數(shù)據(jù)，比如Worst-of-N（WoN）部分的數(shù)據(jù)。

而損失的第二項是一個對比式的損失IPO（是DPO的升級，添加了正則項減少過擬合），關(guān)于這里的正則項 $\beta^{*}_n$ 文中附錄有推導，博文就不贅述了。IPO-BoN損失不僅采用了BoN結(jié)果作為正向樣本（也就是 $\pi_{r}^{(n)}$ ，還采用了WoN結(jié)果作為負向樣本（也就是 $\pi_r^{(l)}$ ? ），數(shù)據(jù)的利用率更高。

在實驗部分，作者比較了Summarization和helpful and Harmless這兩塊任務，如Fig 4.所示，其中的黑線（BoN theoretical）是根據(jù)公式（9）繪制出來的，而BoN Sampling則是真實采樣得到的結(jié)果，可以發(fā)現(xiàn)是能夠符合曲線的。我們看這個圖，應該從兩個維度看：

勝率越高，說明相比初始策略模型效果更好越接近Reference Model（無論是KL散度還是平均響應長度），說明消耗的KL距離越少，則是更占優(yōu)勢（筆者認為是勝率計算更加準確）從這個分析角度看，我們發(fā)現(xiàn)BoNBoN方法在消耗更少KL距離（或者和初始策略模型更加接近長度的平均響應長度）的情況下，能取得更高的勝率。此外，我們看到DPO BoN 效果持續(xù)遠遠優(yōu)于DPO original HH，后者是采用HH數(shù)據(jù)（也就是所謂的off-policy的數(shù)據(jù)），而前者則來自于模型自身的BoN結(jié)果組建偏序數(shù)據(jù)，也就是所謂的on-policy數(shù)據(jù)。從這個結(jié)果，我們得到一個結(jié)論是，應當盡可能采用on-policy數(shù)據(jù)進行模型偏好對齊，即便這些結(jié)果可能相對來說比較弱（對比其他更好的模型采樣或者標注）。

Fig 4. BoNBoN在實現(xiàn)高勝率的同時，對生成過程中非目標方面的影響極?。ㄒ簿褪瞧x初始策略模型的程度）。每個數(shù)據(jù)點代表采用特定對齊方法的模型，我們使用一個Ranker測量其相對于基礎(chǔ)模型的勝率。為評估非目標行為的改變，我們同時測量了估計的KL散度（左圖）和平均響應長度（右圖）。上方：BoNBoN與基線模型在摘要任務中的對比結(jié)果。

下方：BoNBoN與基線模型在單輪對話任務中的對比結(jié)果。讀后感筆者看完這篇文章后，第一感覺就是公式好多… 其實整個蒸餾BoN結(jié)果的思路很直接，就是在SFT的基礎(chǔ)上添加了一個DPO類的損失（或者反過來說，在DPO偏好對齊的基礎(chǔ)上加了一個SFT行為模仿），其實整篇文章很多篇幅在證明BoN是KL約束下的漸進最優(yōu)策略，然后想辦法去接近BoN。因此我總結(jié)從這篇文章得到的收獲的話：

BoN是LLM的KL約束限制下的漸進最優(yōu)策略新策略模型可以表示為初始策略模型的分布加權(quán)on-policy vs off-policy 數(shù)據(jù)作為偏好對齊，應當盡可能采用前者SFT+DPO類損失能夠更加充分利用數(shù)據(jù)

Reference

[1]. Gui, Lin, Cristina Gârbacea, and Victor Veitch. “Bonbon alignment for large language models and the sweetness of best-of-n sampling.” arXiv preprint arXiv:2406.00832 (2024). aka BoNBoN

[2]. Zhou, Chunting, Pengfei Liu, Puxin Xu, Srinivasan Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma et al. “Lima: Less is more for alignment.” Advances in Neural Information Processing Systems 36 (2023): 55006-55021. aka LIMA

[3]. Chu, Tianzhe, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, and Yi Ma. “Sft memorizes, rl generalizes: A comparative study of foundation model post-training.” arXiv preprint arXiv:2501.17161 (2025).

[4]. 《大模型推理時的尺度擴展定律》, https://fesianxu.github.io/2025/03/02/test-time-scaling-laws-20250302/

[5]. Yang, Joy Qiping, Salman Salamatian, Ziteng Sun, Ananda Theertha Suresh, and Ahmad Beirami. “Asymptotics of language model alignment.” In 2024 IEEE International Symposium on Information Theory (ISIT), pp. 2027-2032. IEEE, 2024.

[6]. 《獎勵模型中的尺度擴展定律和獎勵劫持》, https://fesianxu.github.io/2025/02/09/scaling-law-in-reward-model-20250209/

聲明：本內(nèi)容為作者獨立觀點，不代表電子星球立場。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴，請聯(lián)系：editor@netbroad.com

覺得內(nèi)容不錯的朋友，別忘了一鍵三連哦！

贊 3

收藏 3

關(guān)注 52

成為作者賺取收益

全部留言

0/200

成為第一個和作者交流的人吧

<sub id="5f5ji"><i id="5f5ji"></i></sub>

<cite id="5f5ji"></cite>