Danqi Chen 在最新提交在Arxiv上的文章 [1] MeCO指出,如Fig 1所示,只需要在預(yù)訓(xùn)練數(shù)據(jù)的起始位置加上一個(gè)來源信息(URL),然后在最后10%的預(yù)訓(xùn)練中除去這個(gè)URL信息進(jìn)行常規(guī)的預(yù)訓(xùn)練,這么一個(gè)簡單的操作,對比常規(guī)的預(yù)訓(xùn)練過程就能獲得下游任務(wù)的性能提升,并且訓(xùn)練加速33%。
Fig 1. 對于標(biāo)準(zhǔn)的預(yù)訓(xùn)練流程,只需要在預(yù)訓(xùn)練數(shù)據(jù)中加入該條數(shù)據(jù)對應(yīng)的URL信息,然后在最后10%的訓(xùn)練中『冷卻』,就能取得下游業(yè)務(wù)的性能收益,并且訓(xùn)練加速33%。
作者通過實(shí)驗(yàn)發(fā)現(xiàn),這個(gè)提升能夠穩(wěn)定地在多個(gè)尺寸的LLM(600M、1.6B、3B、8B)中保持,有理由相信是一個(gè)普適的方法。整個(gè)方法也很簡單,分為兩個(gè)階段:
- 在預(yù)訓(xùn)練前面的90%的訓(xùn)練過程中,在所有預(yù)訓(xùn)練數(shù)據(jù)中,在其起始處拼接上
URL:xxxx \n\n
的模板,其中的xxxx
被稱之為源信息(source infomation),是具體表示該數(shù)據(jù)來自于哪個(gè)URL的信息,可以是原始的URL,比如en.wikipedia.org
,也可以是URL hash,甚至可以是第三方模型對該數(shù)據(jù)的分類信息, 后面的消融實(shí)驗(yàn)中驗(yàn)證不同源信息方式的效果。注意,在loss計(jì)算過程中,只計(jì)算原始的文檔token的損失,而對新增的源信息進(jìn)行掩膜。 - 為了讓預(yù)訓(xùn)練模型能在不帶有源信息的情況下使用,在最后訓(xùn)練量的10%中,作者將源信息去掉,然后進(jìn)行常規(guī)的預(yù)訓(xùn)練操作,這個(gè)過程被稱之為『冷卻』(cooldown)。
作者做了一些試驗(yàn)驗(yàn)證該方法的有效性,為了充分驗(yàn)證,作者選取了10個(gè)下游任務(wù)數(shù)據(jù)集,如Fig 2所示,MeCo表示本文提出的方法,采用了160B的token訓(xùn)練量(比起Standard的240B的訓(xùn)練量,減少了33%),其中Standard表示采用DCLM預(yù)訓(xùn)練數(shù)據(jù)集的常規(guī)預(yù)訓(xùn)練過程,+Data sel
表示采用了數(shù)據(jù)篩選方法(采用fastText文本分類器進(jìn)行文本質(zhì)量過濾,只選取前70%的樣本,保留約160B的token),而+80B tokens
表示對齊Standard的訓(xùn)練量,也就是在做了數(shù)據(jù)篩選的前提下進(jìn)行繼續(xù)訓(xùn)練,補(bǔ)齊訓(xùn)練量(筆者注:我個(gè)人的理解,文章里面并沒有描述的很清楚)。
從結(jié)果來看,如果從預(yù)訓(xùn)練本身的維度,觀察困惑度(PPL)指標(biāo),那么+80B tokens
的效果是最好的,但是有趣的是,困惑度指標(biāo)和下游任務(wù)指標(biāo)并不是強(qiáng)相關(guān)的,這個(gè)從采用Standard
和+Data sel
的對比上也能看出來。在下游任務(wù)中,表現(xiàn)最好的是本文提出的MeCo方法,平均獲得了1個(gè)點(diǎn)的提升,而且對比基線采用的240B的訓(xùn)練量,只需要160B的訓(xùn)練量,節(jié)省了33%的訓(xùn)練成本。
Fig 2. 作者對在DCLM的160B個(gè)token上預(yù)訓(xùn)練一個(gè)1.6B參數(shù)量的語言模型的主要實(shí)驗(yàn)結(jié)果。MeCo顯著優(yōu)于標(biāo)準(zhǔn)預(yù)訓(xùn)練,并且在使用數(shù)據(jù)量少33%的情況下,達(dá)到了與240B token基線相當(dāng)?shù)钠骄阅?。有趣的是,?yàn)證困惑度(PPL)與下游性能并不相關(guān)。
數(shù)據(jù)Scaling試驗(yàn):
我們再看到Fig 3, 具體看到對比標(biāo)準(zhǔn)預(yù)訓(xùn)練方式和MeCo方式,訓(xùn)練量和各個(gè)數(shù)據(jù)集下游表現(xiàn)(作者只挑了表現(xiàn)正向的數(shù)據(jù)集),能看出是隨著訓(xùn)練量的提升,下游效果也是持續(xù)提升的,且MeCo的性能持續(xù)優(yōu)于標(biāo)準(zhǔn)方法,這個(gè)證實(shí)了這個(gè)方法的穩(wěn)定性,即是不依賴與特定的訓(xùn)練量后才能發(fā)揮效果,而是持續(xù)生效。
Fig 3. MeCo在DCLM上的1.6B參數(shù)模型訓(xùn)練過程中下游任務(wù)性能表現(xiàn)如下。MeCo的每個(gè)checkpoint在末尾都包含了一個(gè)使用16B token訓(xùn)練的冷卻階段。為了公平比較,基線和相應(yīng)的MeCo checkpoint所使用的總token數(shù)是相同的。
模型Scaling試驗(yàn):
作者還對比了不同尺度模型的表現(xiàn),如Fig 4.所示,從結(jié)果中能發(fā)現(xiàn)在不同尺度的模型(600M、1.6B、3B、8B)上,MeCo這種訓(xùn)練方式均提供了一致的正收益趨勢。
Fig 4. MeCo在不同模型規(guī)模下的結(jié)果(除8B模型外,其他模型均在DCLM的160B token上訓(xùn)練,8B模型由于資源限制在80B token上訓(xùn)練)。
由于以上的試驗(yàn)均采用的是DCLM這個(gè)預(yù)訓(xùn)練語料,為了探究MeCo是否在其他語料上也能同樣生效,如圖Fig 5所示,作者在C4、RefinedWeb上補(bǔ)充了這個(gè)試驗(yàn),同樣都能發(fā)現(xiàn)MeCo帶來的下游任務(wù)的收益。
Fig 5. 在不同預(yù)訓(xùn)練語料庫上應(yīng)用MeCo的結(jié)果(1.6B參數(shù)模型,160B token),MeCo在不同預(yù)訓(xùn)練來源上均提供了一致趨勢的收益。
有趣的是,采用了MeCo與訓(xùn)練后,模型還具有所謂“條件推理”(conditional inference)的能力,如Fig 6所示,只需要在特定的任務(wù)下,添加一個(gè)適當(dāng)?shù)腢RL前綴(這個(gè)URL并不需要是一個(gè)真實(shí)的URL,只需要在語義上能提供一些問題的分類或者需求信息),就能提升下游任務(wù)的效果。如Fig 7所示,一個(gè)合適的URL能帶來大幅度的下游任務(wù)提升,但是一個(gè)不合適的url,則會帶來大幅度的性能折損,筆者理解,從某種意義上說,這是一種meta prompt,對整個(gè)prompt的調(diào)性和類別、需求等進(jìn)行了約束。
Fig 6. 條件推理的示例:我們可以通過在提示前添加一個(gè)URL來對模型進(jìn)行條件設(shè)置。這個(gè)URL不需要是一個(gè)真實(shí)的網(wǎng)址。
Fig 7. MeCo(1.6B參數(shù),160B DCLM token)的零樣本評估,使用不同URL展示了無條件推理與使用URL之間的差異。
作者還做了消融試驗(yàn)去探討URL前綴的選擇方式,如Fig 8所示,最后發(fā)現(xiàn)采用URL是最合適的,采用Full URL會帶來輸入長度的增長,效果沒有明顯變化,而采用了hash的URL則是性能持平(不過如果采用hash的話,條件推理的能力應(yīng)該就沒有了)。
Fig 8. 對MeCo使用不同元數(shù)據(jù)的消融實(shí)驗(yàn)。平均結(jié)果涵蓋了所有10個(gè)任務(wù)。
筆者看下來,整篇文章的方法是很簡單的,主要是做了很多試驗(yàn)去證實(shí)這個(gè)方法的有效性。從方法本身去看,也從某種意義上說明了對預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行某種標(biāo)簽體系分類的重要性,當(dāng)然之前很多工作可能會嘗試顯式地進(jìn)行數(shù)據(jù)打標(biāo)簽,并且通過數(shù)據(jù)配比的方式去影響預(yù)訓(xùn)練,而本文是一種隱式的方式去增加數(shù)據(jù)的類別信息,也即是增加一個(gè)來源信息,嘗試讓模型自己發(fā)現(xiàn)某些來源(比如維基百科)的信息可能更為靠譜。這里作者還舉了一個(gè)例子,這說明了對于同一個(gè)主體Tim Cook
,不同來源的數(shù)據(jù)差別很大,有些可能是非嚴(yán)肅的梗圖,有些可能是新聞信息,如果混淆在一起進(jìn)行預(yù)訓(xùn)練,會對下游業(yè)務(wù)帶來困擾(比如下游模型可能會迷惑Tim Cook到底是不是會做飯)。從這個(gè)角度去思考,這個(gè)方法就是非常合理的,因?yàn)閬碜圆煌军c(diǎn)的信息調(diào)性會有很大差別,作為一種元信息,有必要作為預(yù)訓(xùn)練輸入的一部分參與訓(xùn)練。
例如,關(guān)于蘋果公司首席執(zhí)行官蒂姆·庫克的網(wǎng)絡(luò)文檔,從表情包“蒂姆不再做飯了(Tim doesn’t cook anymore )” 到傳記“蒂姆·庫克是蘋果公司的首席執(zhí)行官”(Tim Cook is the CEO of Apple )都有。
Reference
[1]. Gao, Tianyu, Alexander Wettig, Luxi He, Yihe Dong, Sadhika Malladi, and Danqi Chen. "Metadata Conditioning Accelerates Language Model Pre-training." arXiv preprint arXiv:2501.01956 (2025). Aka MeCO