性无码一区二区三区在线观看,少妇被爽到高潮在线观看,午夜精品一区二区三区,无码中文字幕人妻在线一区二区三区,无码精品国产一区二区三区免费

徐土豆
認(rèn)證:優(yōu)質(zhì)創(chuàng)作者
作者動態(tài)
世界多胞體與世界模型
5天前
獎勵模型中的尺度擴(kuò)展定律和獎勵劫持
6天前
MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果
1星期前
DoReMi——一種通過代理模型估計大模型預(yù)訓(xùn)練最佳數(shù)據(jù)配比的方法
2星期前
CatLIP,加速2.7倍!采用分類損失的CLIP水準(zhǔn)的預(yù)訓(xùn)練視覺編碼器
2星期前

獎勵模型中的尺度擴(kuò)展定律和獎勵劫持

獎勵劫持問題

在大語言模型(Large Language Model, LLM)中,存在所謂的尺度擴(kuò)展規(guī)律(Scaling Laws) [2],如Fig 1所示,即是:

LLM的性能會隨著模型的參數(shù)量、模型的訓(xùn)練量、模型的訓(xùn)練數(shù)據(jù)量的增加而增加

Fig 1. 大模型中的尺度擴(kuò)展規(guī)律,測試集損失隨著模型訓(xùn)練量、訓(xùn)練集數(shù)據(jù)量、模型參數(shù)量的增加而遞減(即是模型性能遞增)。

眾所周知,獎勵模型(Reward Model,RM)是LLM的訓(xùn)練管道 【一個典型的LLM訓(xùn)練管道包含有:預(yù)訓(xùn)練(Pretrain)、行為克隆(SFT)、人類偏好對齊(Preference Alignment)等幾個過程,其中的人類偏好對齊部分,通常會采用獎勵模型進(jìn)行偏好打分,從LLM的輸出采樣中選取最符合人類偏好的樣本。】 中一個重要部件,其可對LLM的輸出進(jìn)行偏好打分(Preference Score),也可以視為是對LLM的輸出進(jìn)行質(zhì)量打分。然而獎勵模型會遇到所謂獎勵劫持(Reward Hacking)的問題,即是獎勵模型被樣本的其他無關(guān)/弱相關(guān)特征所劫持,其打分不能再正確建模LLM的輸出質(zhì)量,最常見的就是獎勵模型容易認(rèn)為LLM輸出越長質(zhì)量就越高(被稱之為長度偏置,通常來自于獎勵模型的訓(xùn)練數(shù)據(jù)中,邏輯性越好、解釋越完整的樣本,其長度傾向于越長;但是反之不成立,長度越長的樣本不一定是質(zhì)量越好的)。獎勵劫持將會使得獎勵模型無法持續(xù)從LLM的輸出采樣中挑選更好的樣本,從而影響LLM的進(jìn)一步優(yōu)化。

從結(jié)果上看,導(dǎo)致獎勵劫持的原因是對獎勵模型的過度優(yōu)化(Overoptimization),即優(yōu)化獎勵模型的值過高時,反而會阻礙真實(shí)目標(biāo)的性能提升。此處有一個術(shù)語描述這個現(xiàn)象,稱之為古德哈特現(xiàn)象(Goodhart's Law),他是一個在經(jīng)濟(jì)學(xué)、社會學(xué)、管理學(xué)以及人工智能等領(lǐng)域廣泛討論的現(xiàn)象,它描述了當(dāng)一個指標(biāo)被用作目標(biāo)進(jìn)行優(yōu)化時,該指標(biāo)的有效性可能會因?yàn)檫^度優(yōu)化而降低,甚至導(dǎo)致與原始目標(biāo)背離的情況。(原文:When a measure becomes a target, it ceases to be a good measure.)

對其的改進(jìn)方向是多樣的,比如訓(xùn)練數(shù)據(jù)的多樣性、獎勵模型的參數(shù)量、獎勵模型的訓(xùn)練量等,在這篇論文中,作者正是去研究獎勵模型的尺度擴(kuò)展規(guī)律,以及不同實(shí)驗(yàn)設(shè)置下對緩解獎勵模型過度優(yōu)化的幫助

尺度擴(kuò)展包含了訓(xùn)練數(shù)據(jù)量、模型參數(shù)量、模型訓(xùn)練量三個維度,后兩者可以自然擴(kuò)展,但是獎勵模型的訓(xùn)練數(shù)據(jù)來自于人類標(biāo)注,擴(kuò)展訓(xùn)練數(shù)據(jù)將會帶來巨大的標(biāo)注代價,因此本文作者采用生成數(shù)據(jù)作為代理獎勵模型的訓(xùn)練數(shù)據(jù)。整個流程如Fig 2.所示,常規(guī)的代理獎勵模型(Proxy Reward Model) 【之所以稱之為代理獎勵模型,是因?yàn)闃?biāo)注的訓(xùn)練數(shù)據(jù)總是有限的,因此訓(xùn)練出來的獎勵模型其實(shí)是真實(shí)的獎勵模型的一個『代理』?!?是由人類標(biāo)注員標(biāo)注的偏好數(shù)據(jù)進(jìn)行訓(xùn)練的,而本文采用的方法則是:

  1. 首先采用人類標(biāo)注數(shù)據(jù),訓(xùn)練一個6B大小的獎勵模型,這個模型被稱之為『標(biāo)準(zhǔn)獎勵模型(Gold Reward Model)』,后面的所有實(shí)驗(yàn)中,都會認(rèn)為標(biāo)準(zhǔn)獎勵模型的打分是真實(shí)值 【通常這類型模型在一些工作中也會被稱之為『Oracle』,也就是『先知』?!浚恼轮蟹Q之為『標(biāo)準(zhǔn)獎勵打分(gold reward model score)』,這用來評估不同實(shí)驗(yàn)設(shè)置下的代理獎勵模型的效果。
  2. 將標(biāo)準(zhǔn)獎勵模型對一批無標(biāo)注的數(shù)據(jù)進(jìn)行打標(biāo),然后用打標(biāo)后的數(shù)據(jù)進(jìn)行代理獎勵模型的訓(xùn)練,代理獎勵模型的參數(shù)量從3M到3B。在本工作中,作者生成了100K個樣本,保留了10%作為驗(yàn)證集合用于計算RM的驗(yàn)證損失。

Fig 2. 真實(shí) vs 合成獎勵模型訓(xùn)練設(shè)置的示意圖。人類標(biāo)注者生成比較數(shù)據(jù)。在真實(shí)的人類反饋強(qiáng)化學(xué)習(xí)(RLHF)設(shè)置中,這些數(shù)據(jù)被用來訓(xùn)練一個代理獎勵模型,該模型通過強(qiáng)化學(xué)習(xí)(RL)或最佳選擇采樣(BoN)進(jìn)行優(yōu)化。而在我們的合成設(shè)置中,我們則使用一個『標(biāo)準(zhǔn)獎勵模型(Gold RM)』作為我們的真實(shí)標(biāo)準(zhǔn)。

R表示標(biāo)準(zhǔn)獎勵打分,KL:=DKL(π||πinit)表示優(yōu)化后策略模型π與初始策略模型πinit的KL距離(作者用當(dāng)前策略距離初始策略的KL距離表示策略模型的優(yōu)化情況),定義d:=DKL(π||πinit),注意到對于Best-of-N(BoN)方式而言,其KL距離存在解析解 [3],如公式(1-1)所示,其中的n為BoN采樣數(shù)量。

(1-1)KLbon=log?n−n−1n

作者在做了眾多試驗(yàn)后,得出了一個經(jīng)驗(yàn)公式,如(1-2)所示,其中的αbon,βbon,αRL,βRL為公式參數(shù),通過實(shí)驗(yàn)擬合得出(受到代理RM模型參數(shù)量、代理RM模型的訓(xùn)練數(shù)據(jù)量等等因素決定),定義當(dāng)d=0時候?yàn)?span data-eeimg="1" data-tex="R(0):=0">R(0):=0。

)(1-2)Rbon(d)=d(αbon−βbond)RRL(d)=d(αRL−βRLlog?d)

從這個公式中不難發(fā)現(xiàn)這個曲線是一個隨著KL距離增加,開口朝下的二次曲線,這意味著隨著代理獎勵模型優(yōu)化的進(jìn)行,標(biāo)準(zhǔn)獎勵打分會先增加,意味著此時代理獎勵模型還未遇到過度優(yōu)化。到達(dá)一定程度后,標(biāo)準(zhǔn)獎勵打分開始下降,意味著代理獎勵模型開始過度優(yōu)化。

獎勵模型參數(shù)量維度的尺度擴(kuò)展

Fig 3. 策略模型的參數(shù)量保持不變(1.2B參數(shù)),而獎勵模型的規(guī)模則有所變化。圖表的x軸采用平方根刻度。請注意,這些圖表的x軸是不同的。標(biāo)準(zhǔn)獎勵代表了真實(shí)獎勵;觀察到,當(dāng)我們針對標(biāo)準(zhǔn)獎勵的已學(xué)習(xí)代理進(jìn)行優(yōu)化時,標(biāo)準(zhǔn)獎勵最初會增加,隨后則會減少。公式(1-2)提煉的函數(shù)形式能夠很好地擬合這一效應(yīng)(Gold Fit曲線)。

我們看到實(shí)際的試驗(yàn)曲線情況,如Fig 3.所示,這些是在90K合成訓(xùn)練數(shù)據(jù)下訓(xùn)練代理獎勵模型(策略模型參數(shù)量固定在1.2B)的結(jié)果,分別采用了BoN訓(xùn)練方案和RL訓(xùn)練方案,橫坐標(biāo)是優(yōu)化策略模型和初始策略模型的KL距離(表示優(yōu)化程度),縱坐標(biāo)是RM打分。關(guān)注到:

  1. 深色實(shí)線表示標(biāo)準(zhǔn)獎勵模型的打分,這也是公式(1-2)所建模的,而對應(yīng)顏色的淺色實(shí)線就是根據(jù)公式(1-2)的擬合曲線,能發(fā)現(xiàn)能很好地擬合實(shí)際實(shí)驗(yàn)的結(jié)果。
  2. 標(biāo)準(zhǔn)獎勵模型能到達(dá)的頂峰值隨著代理獎勵模型的參數(shù)量提升而提升,存在參數(shù)量的尺度擴(kuò)展效應(yīng)。
  3. 如虛線所示,代理獎勵打分是線性增加(BoN)或者對數(shù)增加的(RL),這表面對于代理獎勵模型而言,是隨著優(yōu)化的進(jìn)行,其模型效果是變得更好的。但是我們知道標(biāo)準(zhǔn)獎勵打分是到一定程度后會下降的,這個差值可以認(rèn)為是代理獎勵模型過度優(yōu)化而帶來的獎勵劫持程度。不難發(fā)現(xiàn),獎勵劫持的程度是隨著優(yōu)化程度逐漸變大的。

在不同代理獎勵模型參數(shù)量下,從公式(1-2)中解算出的αbon,βbonβRL(從Fig 3中不難發(fā)現(xiàn),我們有一系列KL-RM score數(shù)據(jù)點(diǎn),可以采用最小二乘法等方法解算出這些參數(shù)),這些參數(shù)的曲線圖如Fig 4所示,其中的αRL是設(shè)置為了一個常數(shù)。從圖中能看出,這些待定參數(shù)和代理獎勵模型參數(shù)量呈現(xiàn)線性關(guān)系,這意味著在給定了代理獎勵模型參數(shù)量的情況下,可以預(yù)測其標(biāo)準(zhǔn)獎勵打分的峰值。

Fig 4. 在最佳選擇采樣(BoN)和強(qiáng)化學(xué)習(xí)(RL)的過優(yōu)化擴(kuò)展規(guī)律中,隨著參數(shù)數(shù)量的變化,代理獎勵(虛線)和標(biāo)準(zhǔn)獎勵(實(shí)線)的 α_bon,β_{bon}和β_{RL}的值。

獎勵模型訓(xùn)練數(shù)據(jù)量的尺度擴(kuò)展

在固定代理獎勵模型參數(shù)量為12M后,作者實(shí)驗(yàn)了不同訓(xùn)練數(shù)據(jù)量下的效果,如Fig 5.所示,能發(fā)現(xiàn):更多的數(shù)據(jù)會帶來更高的標(biāo)準(zhǔn)獎勵打分和更少的古德哈特效應(yīng)(可以理解為獎勵劫持的現(xiàn)象減少了) 。不過在數(shù)據(jù)量的擴(kuò)展中,未曾觀察到如Fig 4一般,在α,β等函數(shù)參數(shù)上的尺度擴(kuò)展關(guān)系。

Fig 5. 獎勵模型數(shù)據(jù)擴(kuò)展實(shí)驗(yàn)。獎勵模型(RM)的規(guī)模保持不變(12M參數(shù)量),而獎勵模型的數(shù)據(jù)量則有所變化。圖表的x軸采用平方根刻度。請注意,這些圖表的x軸是不同的。虛線表示代理獎勵,實(shí)線表示標(biāo)準(zhǔn)獎勵。

從Fig 5中能隱約發(fā)現(xiàn),當(dāng)訓(xùn)練數(shù)據(jù)量比較少的時候(比如120、250...),隨著KL的增大,標(biāo)準(zhǔn)獎勵打分是遞減的趨勢,這意味著參與訓(xùn)練的數(shù)據(jù)量可能有一個最低的下限。我們再看到Fig 6,從圖(a)中,我們能看出:

  1. 在不同的模型大小下,隨著數(shù)據(jù)量的提升,其模型效果在提升(RM驗(yàn)證損失持續(xù)下降,標(biāo)準(zhǔn)獎勵打分持續(xù)提高),這證實(shí)了獎勵模型也有數(shù)據(jù)量上的尺度擴(kuò)展效應(yīng)。
  2. 注意到當(dāng)數(shù)據(jù)量小于2000時候,所有大小的獎勵模型的性能都接近隨機(jī),這意味著對于獎勵模型而言存在一個最小的訓(xùn)練數(shù)據(jù)量,只有大于這個數(shù)據(jù)量才能正常訓(xùn)練獎勵模型。

Fig 6. 在不同的訓(xùn)練數(shù)據(jù)量和模型大小的組合下,其RM驗(yàn)證損失和最大的標(biāo)準(zhǔn)獎勵打分結(jié)果。

策略模型的尺度擴(kuò)展

前面的研究都是固定了策略模型【策略模型(Policy Model):策略模型負(fù)責(zé)生成行為或輸出,例如在語言生成任務(wù)中生成文本。獎勵模型(Reward Model):獎勵模型用于評估策略模型生成的行為或輸出的質(zhì)量,并提供反饋信號,用于優(yōu)化策略模型?!看笮〉模?.2B參數(shù)量),作者在文章中研究了增大策略模型尺寸(1.2B  6B)是否對獎勵模型訓(xùn)練有所幫助。如Fig 7.所示,我們能發(fā)現(xiàn)6B策略模型參數(shù)量確實(shí)1.2B策略模型參數(shù)量,從標(biāo)準(zhǔn)獎勵打分角度,在初始階段有著較大的優(yōu)勢,但是這個優(yōu)勢隨著訓(xùn)練的進(jìn)行會逐漸縮小,最后6B比1.2B的優(yōu)勢并不大。

從直觀上看,更大的策略模型由于會更容易生成獎勵模型偏好的輸出,因此會更容易過度擬合,不過從Fig 7.看并非如此,我們看到(b),兩種尺寸的模型都在接近的訓(xùn)練程度上達(dá)到了峰值(意味著更大尺寸的策略模型并沒有讓過度優(yōu)化變得更快),從(c)的代理獎勵模型和標(biāo)準(zhǔn)獎勵打分的差值來看,也能發(fā)現(xiàn)兩種尺寸模型的獎勵劫持程度基本上接近(6B模型的獎勵劫持程度甚至還整體更低些)。因此,較大的策略模型在針對獎勵模型進(jìn)行優(yōu)化時獲得的提升較小,不過也不會出現(xiàn)更多的過優(yōu)化現(xiàn)象。

Fig 7. 策略模型擴(kuò)展實(shí)驗(yàn)。獎勵模型的規(guī)模保持不變(12M參數(shù)),而策略模型大小有所變化。圖表的x軸采用平方根刻度。請注意,這些圖表的x軸是不同的。虛線表示代理獎勵,實(shí)線表示標(biāo)準(zhǔn)獎勵。在強(qiáng)化學(xué)習(xí)圖表中,星號表示每個策略規(guī)模下的最大金標(biāo)準(zhǔn)分?jǐn)?shù)。

RL和BoN方式訓(xùn)練模型的對比

直觀上看,一個預(yù)訓(xùn)練好后的LLM的效果上限是其Best-of-N結(jié)果,后訓(xùn)練(包括行為克隆和偏好對齊等)的目的就是將Best-of-N結(jié)果蒸餾到LLM中,這個蒸餾的方式有兩種:

  1. BoN方式:采用獎勵模型對N個LLM采樣結(jié)果(也稱為N個軌跡) A={Ai,i=1,?,N}進(jìn)行打分S={si,i=1,?,N},然后選取其中的最好結(jié)果集合 Abest=A[arg?maxiS],然后通過SFT將最好結(jié)果集合蒸餾到LLM中,這個過程可以迭代反復(fù)進(jìn)行。如同F(xiàn)ig 8. 所示,在每一輪的BoN過程中,如公式(1-1)所示,其增加的KL距離是固定的。注意到,BoN的方式只會保留N個軌跡中被獎勵模型選出的唯一一個軌跡蒸餾到目標(biāo)LLM中,這意味著對采樣軌跡的利用率較低。
  2. 通過PPO的方式(RL方式):采用PPO的方式,此時獎勵模型同樣對采樣的N個軌跡進(jìn)行打分,不過PPO的方式可以充分利用N個軌跡,并且策略模型在每一個訓(xùn)練步中,都會存在KL距離的增加,根據(jù)Fig 9 (a) 所示,其KL距離增加隨著步數(shù)增加呈現(xiàn)二次方的關(guān)系,因此RL過程如Fig 8.的粉色虛線所示,是以逐漸增加的較大KL步長搜索到最終策略(也即是圖中的策略 #4)。當(dāng)然,從圖中也不難發(fā)現(xiàn),RL方式的KL步長如果沒控制好,就容易錯過最佳策略,這也暗示了RL方式的不穩(wěn)定性。

Fig 8. 在后訓(xùn)練中,無論是BoN還是RL,模型都是通過消耗KL距離去搜索新策略。BoN的每一輪搜索增加的KL距離是log(n),而RL隨著訓(xùn)練步數(shù)其KL距離以二次方速度增加。

從以上討論看,基于BoN的方法和基于RL的方法(通過PPO)去后訓(xùn)練LLM,其方式差別很大,預(yù)期其兩者的獎勵模型的過度優(yōu)化情況會有所不同,因此作者在本文對此也進(jìn)行了研究。作者在本文中,把KL距離視為是一種可以被『消耗』的資源,在模型訓(xùn)練過程中,通過消耗KL距離去找到新的策略(通過獎勵模型去判斷新策略是否比舊策略好),如Fig 8所示。

如公式(1-1)所示,BoN的優(yōu)化方式,KL距離的增加都是穩(wěn)定的,大約是log?(n)的增長,因此是一個局部的搜索,而RL的優(yōu)化方式中每一步都會修改上一步的策略,帶來KL距離的增加,從Fig 9 (a)的實(shí)驗(yàn)看,無論是何種模型大小,其KL距離都是隨著訓(xùn)練步數(shù),呈現(xiàn)二次增加(沒有引入KL懲罰的情況),因此對比BoN,RL是一種更為低效利用KL資源的一種方式。

Fig 9. 獎勵模型中,不同模型大小下KL距離隨著訓(xùn)練步數(shù)的變化情況,以及加入了KL懲罰項(xiàng)后的變化曲線。

不過這也從另一種角度說明,不同的訓(xùn)練方式下,消耗KL距離的方式也不同,采用KL距離去量化衡量優(yōu)化過程是不充足的,因此也就無法使用KL距離作為橫坐標(biāo),將BoN和RL兩種方式下的標(biāo)準(zhǔn)獎勵打分繪制曲線進(jìn)行對比。存在一些對策略的擾動,這些擾動與獎勵信號正交(也即是導(dǎo)致獎勵劫持的原因,獎勵模型建模中沒有建模出這些正交的擾動信號),會導(dǎo)致KL距離增加,但并不會提升標(biāo)準(zhǔn)獎勵或代理獎勵,相反,一些極其微小但精準(zhǔn)的目標(biāo)化擾動,可以在很小的KL預(yù)算內(nèi)顯著改變策略的行為。

作者指出,可以考慮采用代理獎勵打分作為一種量化的指標(biāo),如Fig 10所示此時可以通過對比sgold_rm−sproxy_rm 作為指代獎勵劫持的指標(biāo),去對比BoN和RL的表現(xiàn)。Fig 10中,理想的曲線應(yīng)該是sgold_rm=sproxy_rm,也即是曲線越靠近對角線就表示該方法越好,其中不同顏色表示的是不同的模型大?。üP者猜的,原文沒提到這點(diǎn)),可以發(fā)現(xiàn)在不同的模型尺度下,都是RL方式會優(yōu)于BoN方式。

Fig 10. 代理指標(biāo)與標(biāo)準(zhǔn)的RM分?jǐn)?shù)在BoN和RL中的對比。為了便于閱讀,RL曲線在代理RM分?jǐn)?shù)為1.6處被截斷。

KL懲罰項(xiàng)的作用類似于『早?!?/h2>

在RL優(yōu)化過程中,可以增加KL懲罰項(xiàng)(KL(πold||πnew))去約束KL距離的過度增加,增加了KL懲罰項(xiàng)后的策略損失如公式(1-3)所示,其中的A^tt時刻的優(yōu)勢函數(shù),rt(θ)=πθ(at|st)πθold(at|st), β為懲罰項(xiàng)大小。增加了KL懲罰項(xiàng)后的曲線如Fig 9 (b) 所示,可以發(fā)現(xiàn)KL懲罰項(xiàng)越大,KL距離增加的速度就越慢,最后接近停滯。從Fig 11.中,我們對比不同大小的KL懲罰項(xiàng)后發(fā)現(xiàn),不同的KL懲罰項(xiàng)只會影響收斂速度,而不會影響標(biāo)準(zhǔn)獎勵打分的峰值,這意味著KL懲罰項(xiàng)的作用類似于『早停』,是一種正則化工具。

(1-3)θ∗=arg?maxθLactor(θ)=Et[min(rt(θ)⋅A^t,clip(rt(θ),1−?,1+?)⋅A^t)]−β⋅KL(πθold||πθ)

Fig 11. 在不同KL懲罰項(xiàng)下的RL優(yōu)化實(shí)驗(yàn)。策略網(wǎng)絡(luò)的大小(1.2B參數(shù))和獎勵模型的大?。?.2B參數(shù))保持不變。虛線表示代理獎勵(proxy rewards),實(shí)線表示真實(shí)獎勵(gold rewards)。我們觀察到KL懲罰對真實(shí)得分(gold score)的影響等同于早停(early stopping)。

在原文中,作者還指出古德哈特現(xiàn)象分為以下四種,然后分析了獎勵劫持現(xiàn)象在這四個現(xiàn)象中的分類,受限于篇幅本文就不展開了,有興趣的讀者可以翻閱原論文 [1]。

  1. 回歸型古德哈特現(xiàn)象
  2. 外部型古德哈特現(xiàn)象
  3. 因果型古德哈特現(xiàn)象
  4. 對抗型古德哈特現(xiàn)象

筆者讀下來,這篇文章的信息密度很大,是一篇常讀常新的極品文章,其主要論點(diǎn)有:

  1. 獎勵模型可以尺度擴(kuò)展以緩解獎勵劫持問題(模型尺寸、訓(xùn)練數(shù)據(jù)大小),但是訓(xùn)練數(shù)據(jù)大小會有一個最低的數(shù)量要求。
  2. 獎勵模型的過度優(yōu)化現(xiàn)象在不同尺寸的模型和不同大小的訓(xùn)練數(shù)據(jù)下都會出現(xiàn)。
  3. 策略模型的尺度擴(kuò)展,對獎勵模型緩解獎勵劫持無太大幫助。
  4. KL距離是一種資源,BoN和RL的優(yōu)化模式是不同的,他們消耗KL距離的方式也不同。
  5. KL懲罰項(xiàng)會加速模型收斂,但是不會提高模型的性能峰值,是一種類似『早?!坏恼齽t項(xiàng)。

當(dāng)然,本文也留下了一些重要的待探索的問題,比如:

  1. 探索多輪迭代式地優(yōu)化RLHF
  2. 繼續(xù)深入探索對策略模型的尺度擴(kuò)展
  3. 探索除了BoN和RL之外的其他訓(xùn)練方式
  4. 當(dāng)前的標(biāo)準(zhǔn)模型是采用的合成標(biāo)簽訓(xùn)練的,合成標(biāo)簽和真實(shí)的世界標(biāo)簽會有差距。

如果覺得該博文對您有所幫助,筆者強(qiáng)烈建議您翻閱原論文,以獲得第一手的信息。


Reference

[1]. Gao, Leo, John Schulman, and Jacob Hilton. "Scaling laws for reward model overoptimization." In International Conference on Machine Learning, pp. 10835-10866. PMLR, 2023.

[2]. Kaplan, Jared, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. "Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 (2020).

[3]. Nisan Stiennon, Long Ouyang, Jeff Wu, Daniel M. Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, and Paul Christiano. Learning to summarize from human feedback. Computing Research Repository, 2020. version 3

聲明:本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表電子星球立場。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴,請聯(lián)系:editor@netbroad.com
覺得內(nèi)容不錯的朋友,別忘了一鍵三連哦!
贊 1
收藏 2
關(guān)注 52
成為作者 賺取收益
全部留言
0/200
成為第一個和作者交流的人吧