性无码一区二区三区在线观看,少妇被爽到高潮在线观看,午夜精品一区二区三区,无码中文字幕人妻在线一区二区三区,无码精品国产一区二区三区免费

徐土豆
認(rèn)證:優(yōu)質(zhì)創(chuàng)作者
作者動態(tài)
世界多胞體與世界模型
5天前
獎(jiǎng)勵(lì)模型中的尺度擴(kuò)展定律和獎(jiǎng)勵(lì)劫持
6天前
MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果
1星期前
DoReMi——一種通過代理模型估計(jì)大模型預(yù)訓(xùn)練最佳數(shù)據(jù)配比的方法
2星期前
CatLIP,加速2.7倍!采用分類損失的CLIP水準(zhǔn)的預(yù)訓(xùn)練視覺編碼器
2星期前

MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果

Danqi Chen 在最新提交在Arxiv上的文章 [1] MeCO指出,如Fig 1所示,只需要在預(yù)訓(xùn)練數(shù)據(jù)的起始位置加上一個(gè)來源信息(URL),然后在最后10%的預(yù)訓(xùn)練中除去這個(gè)URL信息進(jìn)行常規(guī)的預(yù)訓(xùn)練,這么一個(gè)簡單的操作,對比常規(guī)的預(yù)訓(xùn)練過程就能獲得下游任務(wù)的性能提升,并且訓(xùn)練加速33%。

Fig 1. 對于標(biāo)準(zhǔn)的預(yù)訓(xùn)練流程,只需要在預(yù)訓(xùn)練數(shù)據(jù)中加入該條數(shù)據(jù)對應(yīng)的URL信息,然后在最后10%的訓(xùn)練中『冷卻』,就能取得下游業(yè)務(wù)的性能收益,并且訓(xùn)練加速33%。

作者通過實(shí)驗(yàn)發(fā)現(xiàn),這個(gè)提升能夠穩(wěn)定地在多個(gè)尺寸的LLM(600M、1.6B、3B、8B)中保持,有理由相信是一個(gè)普適的方法。整個(gè)方法也很簡單,分為兩個(gè)階段:

  1. 在預(yù)訓(xùn)練前面的90%的訓(xùn)練過程中,在所有預(yù)訓(xùn)練數(shù)據(jù)中,在其起始處拼接上URL:xxxx \n\n的模板,其中的xxxx被稱之為源信息(source infomation),是具體表示該數(shù)據(jù)來自于哪個(gè)URL的信息,可以是原始的URL,比如en.wikipedia.org,也可以是URL hash,甚至可以是第三方模型對該數(shù)據(jù)的分類信息, 后面的消融實(shí)驗(yàn)中驗(yàn)證不同源信息方式的效果。注意,在loss計(jì)算過程中,只計(jì)算原始的文檔token的損失,而對新增的源信息進(jìn)行掩膜。
  2. 為了讓預(yù)訓(xùn)練模型能在不帶有源信息的情況下使用,在最后訓(xùn)練量的10%中,作者將源信息去掉,然后進(jìn)行常規(guī)的預(yù)訓(xùn)練操作,這個(gè)過程被稱之為『冷卻』(cooldown)。

作者做了一些試驗(yàn)驗(yàn)證該方法的有效性,為了充分驗(yàn)證,作者選取了10個(gè)下游任務(wù)數(shù)據(jù)集,如Fig 2所示,MeCo表示本文提出的方法,采用了160B的token訓(xùn)練量(比起Standard的240B的訓(xùn)練量,減少了33%),其中Standard表示采用DCLM預(yù)訓(xùn)練數(shù)據(jù)集的常規(guī)預(yù)訓(xùn)練過程,+Data sel表示采用了數(shù)據(jù)篩選方法(采用fastText文本分類器進(jìn)行文本質(zhì)量過濾,只選取前70%的樣本,保留約160B的token),而+80B tokens表示對齊Standard的訓(xùn)練量,也就是在做了數(shù)據(jù)篩選的前提下進(jìn)行繼續(xù)訓(xùn)練,補(bǔ)齊訓(xùn)練量(筆者注:我個(gè)人的理解,文章里面并沒有描述的很清楚)。

從結(jié)果來看,如果從預(yù)訓(xùn)練本身的維度,觀察困惑度(PPL)指標(biāo),那么+80B tokens的效果是最好的,但是有趣的是,困惑度指標(biāo)和下游任務(wù)指標(biāo)并不是強(qiáng)相關(guān)的,這個(gè)從采用Standard+Data sel的對比上也能看出來。在下游任務(wù)中,表現(xiàn)最好的是本文提出的MeCo方法,平均獲得了1個(gè)點(diǎn)的提升,而且對比基線采用的240B的訓(xùn)練量,只需要160B的訓(xùn)練量,節(jié)省了33%的訓(xùn)練成本。

Fig 2. 作者對在DCLM的160B個(gè)token上預(yù)訓(xùn)練一個(gè)1.6B參數(shù)量的語言模型的主要實(shí)驗(yàn)結(jié)果。MeCo顯著優(yōu)于標(biāo)準(zhǔn)預(yù)訓(xùn)練,并且在使用數(shù)據(jù)量少33%的情況下,達(dá)到了與240B token基線相當(dāng)?shù)钠骄阅?。有趣的是,?yàn)證困惑度(PPL)與下游性能并不相關(guān)。

數(shù)據(jù)Scaling試驗(yàn)

我們再看到Fig 3, 具體看到對比標(biāo)準(zhǔn)預(yù)訓(xùn)練方式和MeCo方式,訓(xùn)練量和各個(gè)數(shù)據(jù)集下游表現(xiàn)(作者只挑了表現(xiàn)正向的數(shù)據(jù)集),能看出是隨著訓(xùn)練量的提升,下游效果也是持續(xù)提升的,且MeCo的性能持續(xù)優(yōu)于標(biāo)準(zhǔn)方法,這個(gè)證實(shí)了這個(gè)方法的穩(wěn)定性,即是不依賴與特定的訓(xùn)練量后才能發(fā)揮效果,而是持續(xù)生效。

Fig 3. MeCo在DCLM上的1.6B參數(shù)模型訓(xùn)練過程中下游任務(wù)性能表現(xiàn)如下。MeCo的每個(gè)checkpoint在末尾都包含了一個(gè)使用16B token訓(xùn)練的冷卻階段。為了公平比較,基線和相應(yīng)的MeCo checkpoint所使用的總token數(shù)是相同的。

模型Scaling試驗(yàn)

作者還對比了不同尺度模型的表現(xiàn),如Fig 4.所示,從結(jié)果中能發(fā)現(xiàn)在不同尺度的模型(600M、1.6B、3B、8B)上,MeCo這種訓(xùn)練方式均提供了一致的正收益趨勢。

Fig 4. MeCo在不同模型規(guī)模下的結(jié)果(除8B模型外,其他模型均在DCLM的160B token上訓(xùn)練,8B模型由于資源限制在80B token上訓(xùn)練)。

由于以上的試驗(yàn)均采用的是DCLM這個(gè)預(yù)訓(xùn)練語料,為了探究MeCo是否在其他語料上也能同樣生效,如圖Fig 5所示,作者在C4、RefinedWeb上補(bǔ)充了這個(gè)試驗(yàn),同樣都能發(fā)現(xiàn)MeCo帶來的下游任務(wù)的收益。

Fig 5. 在不同預(yù)訓(xùn)練語料庫上應(yīng)用MeCo的結(jié)果(1.6B參數(shù)模型,160B token),MeCo在不同預(yù)訓(xùn)練來源上均提供了一致趨勢的收益。

有趣的是,采用了MeCo與訓(xùn)練后,模型還具有所謂“條件推理”(conditional inference)的能力,如Fig 6所示,只需要在特定的任務(wù)下,添加一個(gè)適當(dāng)?shù)腢RL前綴(這個(gè)URL并不需要是一個(gè)真實(shí)的URL,只需要在語義上能提供一些問題的分類或者需求信息),就能提升下游任務(wù)的效果。如Fig 7所示,一個(gè)合適的URL能帶來大幅度的下游任務(wù)提升,但是一個(gè)不合適的url,則會帶來大幅度的性能折損,筆者理解,從某種意義上說,這是一種meta prompt,對整個(gè)prompt的調(diào)性和類別、需求等進(jìn)行了約束。

Fig 6. 條件推理的示例:我們可以通過在提示前添加一個(gè)URL來對模型進(jìn)行條件設(shè)置。這個(gè)URL不需要是一個(gè)真實(shí)的網(wǎng)址。

Fig 7. MeCo(1.6B參數(shù),160B DCLM token)的零樣本評估,使用不同URL展示了無條件推理與使用URL之間的差異。

作者還做了消融試驗(yàn)去探討URL前綴的選擇方式,如Fig 8所示,最后發(fā)現(xiàn)采用URL是最合適的,采用Full URL會帶來輸入長度的增長,效果沒有明顯變化,而采用了hash的URL則是性能持平(不過如果采用hash的話,條件推理的能力應(yīng)該就沒有了)。

Fig 8. 對MeCo使用不同元數(shù)據(jù)的消融實(shí)驗(yàn)。平均結(jié)果涵蓋了所有10個(gè)任務(wù)。

筆者看下來,整篇文章的方法是很簡單的,主要是做了很多試驗(yàn)去證實(shí)這個(gè)方法的有效性。從方法本身去看,也從某種意義上說明了對預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行某種標(biāo)簽體系分類的重要性,當(dāng)然之前很多工作可能會嘗試顯式地進(jìn)行數(shù)據(jù)打標(biāo)簽,并且通過數(shù)據(jù)配比的方式去影響預(yù)訓(xùn)練,而本文是一種隱式的方式去增加數(shù)據(jù)的類別信息,也即是增加一個(gè)來源信息,嘗試讓模型自己發(fā)現(xiàn)某些來源(比如維基百科)的信息可能更為靠譜。這里作者還舉了一個(gè)例子,這說明了對于同一個(gè)主體Tim Cook,不同來源的數(shù)據(jù)差別很大,有些可能是非嚴(yán)肅的梗圖,有些可能是新聞信息,如果混淆在一起進(jìn)行預(yù)訓(xùn)練,會對下游業(yè)務(wù)帶來困擾(比如下游模型可能會迷惑Tim Cook到底是不是會做飯)。從這個(gè)角度去思考,這個(gè)方法就是非常合理的,因?yàn)閬碜圆煌军c(diǎn)的信息調(diào)性會有很大差別,作為一種元信息,有必要作為預(yù)訓(xùn)練輸入的一部分參與訓(xùn)練。

例如,關(guān)于蘋果公司首席執(zhí)行官蒂姆·庫克的網(wǎng)絡(luò)文檔,從表情包“蒂姆不再做飯了(Tim doesn’t cook anymore )” 到傳記“蒂姆·庫克是蘋果公司的首席執(zhí)行官”(Tim Cook is the CEO of Apple )都有。

Reference

[1]. Gao, Tianyu, Alexander Wettig, Luxi He, Yihe Dong, Sadhika Malladi, and Danqi Chen. "Metadata Conditioning Accelerates Language Model Pre-training." arXiv preprint arXiv:2501.01956 (2025). Aka MeCO

聲明:本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表電子星球立場。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴,請聯(lián)系:editor@netbroad.com
覺得內(nèi)容不錯(cuò)的朋友,別忘了一鍵三連哦!
贊 1
收藏 2
關(guān)注 52
成為作者 賺取收益
全部留言
0/200
成為第一個(gè)和作者交流的人吧