性无码一区二区三区在线观看,少妇被爽到高潮在线观看,午夜精品一区二区三区,无码中文字幕人妻在线一区二区三区,无码精品国产一区二区三区免费

<style id="szy1o"></style>

認(rèn)證：優(yōu)質(zhì)創(chuàng)作者

作者動態(tài)

世界多胞體與世界模型

5天前

獎(jiǎng)勵(lì)模型中的尺度擴(kuò)展定律和獎(jiǎng)勵(lì)劫持

6天前

MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果

1星期前

DoReMi——一種通過代理模型估計(jì)大模型預(yù)訓(xùn)練最佳數(shù)據(jù)配比的方法

2星期前

CatLIP，加速2.7倍！采用分類損失的CLIP水準(zhǔn)的預(yù)訓(xùn)練視覺編碼器

2星期前

工程師都在看

7.6KW裂相并網(wǎng)逆變器系統(tǒng)設(shè)計(jì)

反激式電源為什么上電最容易燒MOS管？

LLC諧振變換器（三）-設(shè)計(jì)步驟

測試電機(jī)波形方法及問題經(jīng)驗(yàn)

從0到1設(shè)計(jì)BUCK(11) | 配置欠壓閉鎖的閾值，給電源加一道“安全門”

開關(guān)電源模式大揭秘：BUCK電路如何“智能”應(yīng)對負(fù)載變化？

從0到1設(shè)計(jì)BUCK(12) | 配置反饋電阻，你的輸出電壓由你定義

車規(guī)芯片認(rèn)證標(biāo)準(zhǔn)AEC-Q100-H中文版及內(nèi)容解讀（正文部分）

嵌入式閑聊-優(yōu)質(zhì)學(xué)習(xí)資料獲取

雙向全橋CLLC諧振拓?fù)涔ぷ髟砗喗?/div>

MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果

徐土豆 1星期前 48 閱讀 1 贊 2 收藏 0 評論

Danqi Chen 在最新提交在Arxiv上的文章 [1] MeCO指出，如Fig 1所示，只需要在預(yù)訓(xùn)練數(shù)據(jù)的起始位置加上一個(gè)來源信息（URL），然后在最后10%的預(yù)訓(xùn)練中除去這個(gè)URL信息進(jìn)行常規(guī)的預(yù)訓(xùn)練，這么一個(gè)簡單的操作，對比常規(guī)的預(yù)訓(xùn)練過程就能獲得下游任務(wù)的性能提升，并且訓(xùn)練加速33%。

Fig 1. 對于標(biāo)準(zhǔn)的預(yù)訓(xùn)練流程，只需要在預(yù)訓(xùn)練數(shù)據(jù)中加入該條數(shù)據(jù)對應(yīng)的URL信息，然后在最后10%的訓(xùn)練中『冷卻』，就能取得下游業(yè)務(wù)的性能收益，并且訓(xùn)練加速33%。

作者通過實(shí)驗(yàn)發(fā)現(xiàn)，這個(gè)提升能夠穩(wěn)定地在多個(gè)尺寸的LLM（600M、1.6B、3B、8B）中保持，有理由相信是一個(gè)普適的方法。整個(gè)方法也很簡單，分為兩個(gè)階段：

在預(yù)訓(xùn)練前面的90%的訓(xùn)練過程中，在所有預(yù)訓(xùn)練數(shù)據(jù)中，在其起始處拼接上URL:xxxx \n\n的模板，其中的xxxx被稱之為源信息（source infomation），是具體表示該數(shù)據(jù)來自于哪個(gè)URL的信息，可以是原始的URL，比如en.wikipedia.org，也可以是URL hash，甚至可以是第三方模型對該數(shù)據(jù)的分類信息，后面的消融實(shí)驗(yàn)中驗(yàn)證不同源信息方式的效果。注意，在loss計(jì)算過程中，只計(jì)算原始的文檔token的損失，而對新增的源信息進(jìn)行掩膜。
為了讓預(yù)訓(xùn)練模型能在不帶有源信息的情況下使用，在最后訓(xùn)練量的10%中，作者將源信息去掉，然后進(jìn)行常規(guī)的預(yù)訓(xùn)練操作，這個(gè)過程被稱之為『冷卻』(cooldown)。

作者做了一些試驗(yàn)驗(yàn)證該方法的有效性，為了充分驗(yàn)證，作者選取了10個(gè)下游任務(wù)數(shù)據(jù)集，如Fig 2所示，MeCo表示本文提出的方法，采用了160B的token訓(xùn)練量（比起Standard的240B的訓(xùn)練量，減少了33%），其中Standard表示采用DCLM預(yù)訓(xùn)練數(shù)據(jù)集的常規(guī)預(yù)訓(xùn)練過程，+Data sel表示采用了數(shù)據(jù)篩選方法（采用fastText文本分類器進(jìn)行文本質(zhì)量過濾，只選取前70%的樣本，保留約160B的token），而+80B tokens表示對齊Standard的訓(xùn)練量，也就是在做了數(shù)據(jù)篩選的前提下進(jìn)行繼續(xù)訓(xùn)練，補(bǔ)齊訓(xùn)練量（筆者注：我個(gè)人的理解，文章里面并沒有描述的很清楚）。

從結(jié)果來看，如果從預(yù)訓(xùn)練本身的維度，觀察困惑度（PPL）指標(biāo)，那么+80B tokens的效果是最好的，但是有趣的是，困惑度指標(biāo)和下游任務(wù)指標(biāo)并不是強(qiáng)相關(guān)的，這個(gè)從采用Standard和+Data sel的對比上也能看出來。在下游任務(wù)中，表現(xiàn)最好的是本文提出的MeCo方法，平均獲得了1個(gè)點(diǎn)的提升，而且對比基線采用的240B的訓(xùn)練量，只需要160B的訓(xùn)練量，節(jié)省了33%的訓(xùn)練成本。

Fig 2. 作者對在DCLM的160B個(gè)token上預(yù)訓(xùn)練一個(gè)1.6B參數(shù)量的語言模型的主要實(shí)驗(yàn)結(jié)果。MeCo顯著優(yōu)于標(biāo)準(zhǔn)預(yù)訓(xùn)練，并且在使用數(shù)據(jù)量少33%的情況下，達(dá)到了與240B token基線相當(dāng)?shù)钠骄阅?。有趣的是，?yàn)證困惑度（PPL）與下游性能并不相關(guān)。

數(shù)據(jù)Scaling試驗(yàn)：

我們再看到Fig 3，具體看到對比標(biāo)準(zhǔn)預(yù)訓(xùn)練方式和MeCo方式，訓(xùn)練量和各個(gè)數(shù)據(jù)集下游表現(xiàn)（作者只挑了表現(xiàn)正向的數(shù)據(jù)集），能看出是隨著訓(xùn)練量的提升，下游效果也是持續(xù)提升的，且MeCo的性能持續(xù)優(yōu)于標(biāo)準(zhǔn)方法，這個(gè)證實(shí)了這個(gè)方法的穩(wěn)定性，即是不依賴與特定的訓(xùn)練量后才能發(fā)揮效果，而是持續(xù)生效。

Fig 3. MeCo在DCLM上的1.6B參數(shù)模型訓(xùn)練過程中下游任務(wù)性能表現(xiàn)如下。MeCo的每個(gè)checkpoint在末尾都包含了一個(gè)使用16B token訓(xùn)練的冷卻階段。為了公平比較，基線和相應(yīng)的MeCo checkpoint所使用的總token數(shù)是相同的。

模型Scaling試驗(yàn)：

作者還對比了不同尺度模型的表現(xiàn)，如Fig 4.所示，從結(jié)果中能發(fā)現(xiàn)在不同尺度的模型（600M、1.6B、3B、8B）上，MeCo這種訓(xùn)練方式均提供了一致的正收益趨勢。

Fig 4. MeCo在不同模型規(guī)模下的結(jié)果（除8B模型外，其他模型均在DCLM的160B token上訓(xùn)練，8B模型由于資源限制在80B token上訓(xùn)練）。

由于以上的試驗(yàn)均采用的是DCLM這個(gè)預(yù)訓(xùn)練語料，為了探究MeCo是否在其他語料上也能同樣生效，如圖Fig 5所示，作者在C4、RefinedWeb上補(bǔ)充了這個(gè)試驗(yàn)，同樣都能發(fā)現(xiàn)MeCo帶來的下游任務(wù)的收益。

Fig 5. 在不同預(yù)訓(xùn)練語料庫上應(yīng)用MeCo的結(jié)果（1.6B參數(shù)模型，160B token）,MeCo在不同預(yù)訓(xùn)練來源上均提供了一致趨勢的收益。

有趣的是，采用了MeCo與訓(xùn)練后，模型還具有所謂“條件推理”（conditional inference）的能力，如Fig 6所示，只需要在特定的任務(wù)下，添加一個(gè)適當(dāng)?shù)腢RL前綴（這個(gè)URL并不需要是一個(gè)真實(shí)的URL，只需要在語義上能提供一些問題的分類或者需求信息），就能提升下游任務(wù)的效果。如Fig 7所示，一個(gè)合適的URL能帶來大幅度的下游任務(wù)提升，但是一個(gè)不合適的url，則會帶來大幅度的性能折損，筆者理解，從某種意義上說，這是一種meta prompt，對整個(gè)prompt的調(diào)性和類別、需求等進(jìn)行了約束。

Fig 6. 條件推理的示例：我們可以通過在提示前添加一個(gè)URL來對模型進(jìn)行條件設(shè)置。這個(gè)URL不需要是一個(gè)真實(shí)的網(wǎng)址。

Fig 7. MeCo（1.6B參數(shù)，160B DCLM token）的零樣本評估，使用不同URL展示了無條件推理與使用URL之間的差異。

作者還做了消融試驗(yàn)去探討URL前綴的選擇方式，如Fig 8所示，最后發(fā)現(xiàn)采用URL是最合適的，采用Full URL會帶來輸入長度的增長，效果沒有明顯變化，而采用了hash的URL則是性能持平（不過如果采用hash的話，條件推理的能力應(yīng)該就沒有了）。

Fig 8. 對MeCo使用不同元數(shù)據(jù)的消融實(shí)驗(yàn)。平均結(jié)果涵蓋了所有10個(gè)任務(wù)。

筆者看下來，整篇文章的方法是很簡單的，主要是做了很多試驗(yàn)去證實(shí)這個(gè)方法的有效性。從方法本身去看，也從某種意義上說明了對預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行某種標(biāo)簽體系分類的重要性，當(dāng)然之前很多工作可能會嘗試顯式地進(jìn)行數(shù)據(jù)打標(biāo)簽，并且通過數(shù)據(jù)配比的方式去影響預(yù)訓(xùn)練，而本文是一種隱式的方式去增加數(shù)據(jù)的類別信息，也即是增加一個(gè)來源信息，嘗試讓模型自己發(fā)現(xiàn)某些來源（比如維基百科）的信息可能更為靠譜。這里作者還舉了一個(gè)例子，這說明了對于同一個(gè)主體Tim Cook，不同來源的數(shù)據(jù)差別很大，有些可能是非嚴(yán)肅的梗圖，有些可能是新聞信息，如果混淆在一起進(jìn)行預(yù)訓(xùn)練，會對下游業(yè)務(wù)帶來困擾（比如下游模型可能會迷惑Tim Cook到底是不是會做飯）。從這個(gè)角度去思考，這個(gè)方法就是非常合理的，因?yàn)閬碜圆煌军c(diǎn)的信息調(diào)性會有很大差別，作為一種元信息，有必要作為預(yù)訓(xùn)練輸入的一部分參與訓(xùn)練。

例如，關(guān)于蘋果公司首席執(zhí)行官蒂姆·庫克的網(wǎng)絡(luò)文檔，從表情包“蒂姆不再做飯了（Tim doesn’t cook anymore ）” 到傳記“蒂姆·庫克是蘋果公司的首席執(zhí)行官”（Tim Cook is the CEO of Apple ）都有。

Reference

[1]. Gao, Tianyu, Alexander Wettig, Luxi He, Yihe Dong, Sadhika Malladi, and Danqi Chen. "Metadata Conditioning Accelerates Language Model Pre-training." arXiv preprint arXiv:2501.01956 (2025). Aka MeCO

聲明：本內(nèi)容為作者獨(dú)立觀點(diǎn)，不代表電子星球立場。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴，請聯(lián)系：editor@netbroad.com

覺得內(nèi)容不錯(cuò)的朋友，別忘了一鍵三連哦！

贊 1

收藏 2

關(guān)注 52

成為作者賺取收益

全部留言

0/200

成為第一個(gè)和作者交流的人吧

<sub id="8ib1i"></sub>

<sub id="8ib1i"><p id="8ib1i"></p></sub>