性无码一区二区三区在线观看,少妇被爽到高潮在线观看,午夜精品一区二区三区,无码中文字幕人妻在线一区二区三区,无码精品国产一区二区三区免费

徐土豆
認(rèn)證:優(yōu)質(zhì)創(chuàng)作者
作者動(dòng)態(tài)
給定計(jì)算預(yù)算下的最佳LLM模型尺寸與預(yù)訓(xùn)練數(shù)據(jù)量分配
05-19 09:33
大模型推理時(shí)的尺度擴(kuò)展定律
05-18 10:32
世界多胞體與世界模型
05-13 09:42
獎(jiǎng)勵(lì)模型中的尺度擴(kuò)展定律和獎(jiǎng)勵(lì)劫持
05-12 08:41
MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果
05-08 09:13

為何基于樹(shù)的模型在表格型數(shù)據(jù)中能優(yōu)于深度學(xué)習(xí)?

表格型數(shù)據(jù)如Fig 1.所示,其每一行是一個(gè)觀測(cè)(observation),或者說(shuō)樣本(sample),每一列是一維特征(feature),或者說(shuō)屬性(attribution)。這種數(shù)據(jù)在現(xiàn)實(shí)生活中經(jīng)常遇到,比如對(duì)銀行客戶進(jìn)行放貸風(fēng)險(xiǎn)評(píng)估就有類似的表格型數(shù)據(jù)。表格型數(shù)據(jù)的特征一般有兩類,數(shù)值型特征(numeric feature)和類別型特征(categories feature)。在天池和kaggle等數(shù)據(jù)比賽中,經(jīng)常會(huì)遇到類似的表格型數(shù)據(jù),而常常稱霸榜單的算法通常都是基于樹(shù)模型的方法,而不是深度學(xué)習(xí)模型,即使后者已經(jīng)在諸多領(lǐng)域隱約一統(tǒng)江湖。那么為何深度學(xué)習(xí)在表格型數(shù)據(jù)上會(huì)遭到如此奇恥大辱呢?論文[1]從三個(gè)角度進(jìn)行了分析。

Fig 1. 表格型數(shù)據(jù)示例,每一行是一個(gè)觀測(cè)(observation),或者說(shuō)樣本(sample),每一列是一維特征(feature),或者說(shuō)屬性(attribution)。

為了讓實(shí)驗(yàn)結(jié)果更為置信可比,作者收集了45個(gè)用于對(duì)比試驗(yàn)的表格型數(shù)據(jù)集,這些數(shù)據(jù)集的采集和收集過(guò)程請(qǐng)參考原文,這里就不介紹了。由于原生的樹(shù)模型無(wú)法對(duì)類別型特征進(jìn)行處理(LightGBM除外,其采用了Fisher[2]的方法進(jìn)行類別特征分組。),因此本文對(duì)類別型數(shù)據(jù)進(jìn)行了one-hot編碼處理。從分類和回歸任務(wù)上看,如Fig 2.所示,無(wú)論從只有數(shù)值型特征的數(shù)據(jù)集,還是數(shù)值型和類別型數(shù)據(jù)集共存的數(shù)據(jù)集看,的確都是樹(shù)模型(XGBoost, RandomForest, GBT)效果要更好。

Fig 2. 無(wú)論是在分類還是回歸任務(wù)中,樹(shù)模型在表格型數(shù)據(jù)上的表現(xiàn)都顯著優(yōu)于深度學(xué)習(xí)模型。那么表格型數(shù)據(jù)為什么那么神奇,能讓樹(shù)模型在各種真實(shí)場(chǎng)景的表格數(shù)據(jù)中都戰(zhàn)勝深度學(xué)習(xí)呢?作者認(rèn)為有以下三種可能:

  • 神經(jīng)網(wǎng)絡(luò)傾向于得到過(guò)于平滑的解
  • 冗余無(wú)信息的特征更容易影響神經(jīng)網(wǎng)絡(luò)
  • 表格型數(shù)據(jù)并不是旋轉(zhuǎn)不變的

我們分別分析下作者給這三個(gè)觀點(diǎn)帶來(lái)的論據(jù)。

神經(jīng)網(wǎng)絡(luò)傾向于得到過(guò)于平滑的解

首先我們假設(shè)表格型數(shù)據(jù)的標(biāo)注是具有噪聲的,并且假設(shè)其是高斯噪聲,那么可以通過(guò)高斯平滑(Gaussian Smooth)進(jìn)行標(biāo)注平滑,高斯平滑采用高斯核,可見(jiàn)博文[3]所示。高斯核公式如(1-1)所示

其中的為第i個(gè)樣本的特征,一共有D DD維特征, 的協(xié)方差矩陣。通過(guò)博文[1]的介紹,我們可知協(xié)方差矩陣其實(shí)描述了高斯分布在特征不同維度的線性拉伸情況,為了人工對(duì)這個(gè)拉伸情況進(jìn)行控制,可以在其基礎(chǔ)上乘上一個(gè)尺度系數(shù) ,也即是可以將(1-1)公式中的協(xié)方差矩陣改為,那么,也即是 越大,其拉伸擴(kuò)大的更多,平滑效果也就更大。高斯核描述了兩個(gè)樣本之間在高斯分布上的相關(guān)程度,可以根據(jù)這個(gè)相關(guān)程度對(duì)樣本的標(biāo)簽進(jìn)行加權(quán)平滑,如式子(1-2)所示。

其中的為第i ii個(gè)樣本的真實(shí)標(biāo)簽,而為第i個(gè)樣本的平滑后標(biāo)簽,可見(jiàn)到是根據(jù)高斯分布中的相關(guān)程度進(jìn)行N NN個(gè)樣本的加權(quán)平滑得到最終的樣本標(biāo)簽。在本文中,作者分別將設(shè)為0.05, 0.1, 0.25,當(dāng)的時(shí)候,認(rèn)為是采用原始標(biāo)簽。如Fig 3. (a)所示,可以發(fā)現(xiàn)進(jìn)行了標(biāo)簽的高斯平滑后,基于樹(shù)的模型(GBT, 隨機(jī)森林)的測(cè)試表現(xiàn)下降明顯,而基于神經(jīng)網(wǎng)絡(luò)的模型(FT Transformer和Resnet)則下降不明顯,并且可以觀察到樹(shù)模型下降后的性能和神經(jīng)網(wǎng)絡(luò)的性能差距,隨著平滑系數(shù)的增大而減少。這說(shuō)明了神經(jīng)網(wǎng)絡(luò)對(duì)于表格型數(shù)據(jù),在某些程度上是進(jìn)行了標(biāo)簽的高斯平滑處理的,而樹(shù)模型則不會(huì)進(jìn)行這個(gè)操作,因此神經(jīng)網(wǎng)絡(luò)的結(jié)果會(huì)更為的平滑(筆者:雖然筆者認(rèn)為這個(gè)結(jié)論很可能是成立的,但是從目前試驗(yàn)看,筆者認(rèn)為這個(gè)只能證明是更加的高斯平滑,不能證明是更加平滑)。同時(shí),筆者對(duì)樹(shù)模型和神經(jīng)網(wǎng)絡(luò)模型的決策邊界進(jìn)行了可視化,如Fig 3. (b)所示,作者通過(guò)樹(shù)模型的權(quán)重大小,挑選了兩維最為重要的特征,然后進(jìn)行可視化。我們可以看到,樹(shù)模型明顯決策邊界更為跳動(dòng),而神經(jīng)網(wǎng)絡(luò)模型則明顯更為平滑,有部分邊緣樣本點(diǎn)將被神經(jīng)網(wǎng)絡(luò)漏檢。這里筆者主要有一點(diǎn)質(zhì)疑,就是這里為了可視化方便而挑選了兩位最為重要的特征作為橫軸縱軸,但是挑選的依據(jù)是樹(shù)模型的權(quán)重,而我們知道樹(shù)模型的權(quán)重其實(shí)是根據(jù)分裂增益進(jìn)行計(jì)算得到的,這樣挑選出來(lái)的特征進(jìn)行可視化決策邊界,會(huì)不會(huì)天然對(duì)樹(shù)模型有優(yōu)勢(shì)呢?比如會(huì)產(chǎn)生更多的分裂點(diǎn),導(dǎo)致能對(duì)更多邊緣樣本進(jìn)行檢出?

Fig 3. (a) 分別設(shè)置不同的平滑系數(shù)后,不同模型的測(cè)試集表現(xiàn); (b) 隨機(jī)森林和MLP算法對(duì)樣本的測(cè)試集決策邊界情況。

總的來(lái)說(shuō),作者通過(guò)以上的試驗(yàn),證實(shí)了我們的表格型數(shù)據(jù)的目標(biāo)(也即是標(biāo)簽)大多數(shù)不是平滑的(至少不是高斯平滑的),對(duì)比于樹(shù)模型,神經(jīng)網(wǎng)絡(luò)會(huì)傾向于去擬合那些不規(guī)則的樣本,導(dǎo)致在某些程度對(duì)這些樣本進(jìn)行了平滑。

冗余無(wú)信息的特征更容易影響神經(jīng)網(wǎng)絡(luò)

作者認(rèn)為表格型數(shù)據(jù)中含有更多無(wú)信息量(uninformative)的冗余特征,而樹(shù)模型對(duì)這些無(wú)信息特征更為魯棒。作者將表格型數(shù)據(jù)的特征按照重要性降序排序(此處的重要性同樣是由樹(shù)模型的分裂增益進(jìn)行判斷),然后按照百分比將不重要的特征依次剔除后進(jìn)行試驗(yàn)。如Fig 4. (a)所示,其中的綠線是樹(shù)模型對(duì)移除后的特征(也就是更為重要的特征)進(jìn)行擬合得到測(cè)試曲線,我們發(fā)現(xiàn)移除大部分不重要特征對(duì)結(jié)果的影響并不大(去除了50%的特征后仍有80%左右的準(zhǔn)確率),這也意味著其實(shí)只有少部分特征是具有高信息量的。而紅線是樹(shù)模型對(duì)移除的特征(也就是更為不重要的特征)進(jìn)行擬合得到的測(cè)試曲線,我們能發(fā)現(xiàn)即便用了一半的(少信息量)特征,其測(cè)試結(jié)果也僅有50%,同樣驗(yàn)證了我們之前得到的結(jié)論——少部分特征carry了全場(chǎng)。對(duì)比神經(jīng)網(wǎng)絡(luò)的結(jié)果,如Fig 4. (b)所示,左圖表示樹(shù)模型和神經(jīng)網(wǎng)絡(luò)模型在去除不同比例的不重要特征后的測(cè)試曲線變化,我們發(fā)現(xiàn)當(dāng)去除更多的不重要特征后,神經(jīng)網(wǎng)絡(luò)和樹(shù)模型的測(cè)試表現(xiàn)差別逐漸減少到相等,這意味著神經(jīng)網(wǎng)絡(luò)其實(shí)對(duì)于這種冗余無(wú)信息的特征更為不魯棒。而Fig 4. (b)的右圖則是通過(guò)高斯分布產(chǎn)出了一些偽特征,這些偽特征無(wú)信息量,通過(guò)把這些無(wú)信息量特征拼接到原有的樣本上,我們模擬了引入無(wú)信息特征的過(guò)程。我們發(fā)現(xiàn)引入更多的無(wú)信息特征,神經(jīng)網(wǎng)絡(luò)和樹(shù)模型的測(cè)試效果差距將會(huì)明顯增大。

Fig 4. (a) 樹(shù)模型在去除不同比例的無(wú)信息特征的表現(xiàn);(b) 樹(shù)模型和神經(jīng)網(wǎng)絡(luò)在無(wú)信息量特征上的表現(xiàn)差別,將會(huì)隨著無(wú)信息量特征的減少而減少。

至于筆者的看法,筆者認(rèn)為這里挑選重要性特征的依據(jù),同樣是根據(jù)樹(shù)模型的權(quán)重進(jìn)行判斷的,用樹(shù)模型權(quán)重挑選出所謂不重要的特征,然后進(jìn)行測(cè)試驗(yàn)證去說(shuō)明樹(shù)模型對(duì)不重要特征更為魯棒,是否會(huì)對(duì)神經(jīng)網(wǎng)絡(luò)不公平呢? 當(dāng)然Fig 4. (b)的試驗(yàn)由于不依賴與特征的權(quán)重,而是由高斯分布產(chǎn)出一些無(wú)信息量特征,筆者認(rèn)為還是更可靠,更有說(shuō)服力的。

表格型數(shù)據(jù)并不是旋轉(zhuǎn)不變的作者在文章中認(rèn)為表格型數(shù)據(jù)并不是旋轉(zhuǎn)不變的,而神經(jīng)網(wǎng)絡(luò)會(huì)對(duì)數(shù)據(jù)進(jìn)行旋轉(zhuǎn)不變的處理,因此效果更差。首先筆者要說(shuō)明什么是旋轉(zhuǎn)不變性(rotation invariant),對(duì)于函數(shù)f ( x ) ,如果有:

則稱之為該函數(shù)具有旋轉(zhuǎn)不變性。其中的 。不難發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)MLP天然具有這種旋轉(zhuǎn)不變性,神經(jīng)網(wǎng)絡(luò)MLP每層由全連接層組成,數(shù)學(xué)形式正是如式子(3-1)描述的矩陣乘法。因此神經(jīng)網(wǎng)絡(luò)從原理上看,在保證基礎(chǔ)網(wǎng)絡(luò)(綠色節(jié)點(diǎn))不變的情況下,只需要增加一層全連接層 ,只要藍(lán)色節(jié)點(diǎn)的網(wǎng)絡(luò)學(xué)到即可(也稱為旋轉(zhuǎn)不變矩陣)。這對(duì)于神經(jīng)網(wǎng)絡(luò)而言并不是一件難事。

Fig 5. 神經(jīng)網(wǎng)絡(luò)MLP天然具有旋轉(zhuǎn)不變性,最簡(jiǎn)單的例子就是添加一層全連接層即可實(shí)現(xiàn)。

這種旋轉(zhuǎn)不變性對(duì)于表格型數(shù)據(jù)而言并不是一件好事。不同于圖片數(shù)據(jù),圖片數(shù)據(jù)訓(xùn)練過(guò)程中,經(jīng)常會(huì)考慮采用對(duì)圖片進(jìn)行一定的旋轉(zhuǎn),以增強(qiáng)模型的旋轉(zhuǎn)不變性。這個(gè)是因?yàn)閳D片像素作為一種各向同性的原始特征,每個(gè)像素并沒(méi)有各自的物理含義,因此旋轉(zhuǎn)也不會(huì)改變其物理含義。相反地,由于圖片實(shí)體在不同角度下大部分都保持同一語(yǔ)義(當(dāng)然也有例外,比如數(shù)字9和6的圖片,進(jìn)行180度旋轉(zhuǎn)后可能導(dǎo)致語(yǔ)義錯(cuò)誤),因此期望模型具有旋轉(zhuǎn)不變性。但是表格型數(shù)據(jù)的每一列通常都是具有顯著物理含義的,比如性別,年齡,收入,工作類型等等,對(duì)這些進(jìn)行數(shù)據(jù)旋轉(zhuǎn),那么產(chǎn)出的特征將不具有任何物理含義了。

如Fig 5. (a)所示,在實(shí)驗(yàn)中將數(shù)據(jù)集的特征進(jìn)行隨機(jī)旋轉(zhuǎn),觀察樹(shù)模型和神經(jīng)網(wǎng)絡(luò)模型的測(cè)試結(jié)果。我們可以發(fā)現(xiàn),基于Resnet的測(cè)試結(jié)果基本上沒(méi)有任何變化,這證實(shí)了Resnet具有函數(shù)上的旋轉(zhuǎn)不變性。而樹(shù)模型GBT和隨機(jī)森林均有大幅度的性能下降(~20%),由此我們可以得出結(jié)論,神經(jīng)網(wǎng)絡(luò)模型在處理特征的過(guò)程中,已經(jīng)對(duì)特征進(jìn)行了一定程度的旋轉(zhuǎn),因此在人工加入旋轉(zhuǎn)干擾的情況下,神經(jīng)網(wǎng)絡(luò)的測(cè)試結(jié)果幾乎不下降。而樹(shù)模型無(wú)旋轉(zhuǎn)不變性,當(dāng)引入人工旋轉(zhuǎn)干擾后,由于數(shù)據(jù)特征的物理含義完全被打亂了,因此性能大幅度下降。注意到一點(diǎn),表格型數(shù)據(jù)中含有大量無(wú)信息量的特征,對(duì)數(shù)據(jù)進(jìn)行的旋轉(zhuǎn)操作,會(huì)直接導(dǎo)致有信息特征中混入無(wú)信息特征,從而影響特征效果。如Fig 5. (b)所示,當(dāng)去掉不重要的特征后(即是按重要性排序的后50%特征),同樣進(jìn)行人工旋轉(zhuǎn)干擾,我們發(fā)現(xiàn)樹(shù)模型的結(jié)果下降得沒(méi)有那么厲害了(~15%),這是因?yàn)闊o(wú)關(guān)特征被大量去除后,人工旋轉(zhuǎn)干擾導(dǎo)致的無(wú)信息特征引入減少了。

Fig 5. (a) 進(jìn)行數(shù)據(jù)旋轉(zhuǎn) VS 不進(jìn)行數(shù)據(jù)旋轉(zhuǎn)的試驗(yàn)結(jié)果; (b) 去除了50%不重要的特征后,重新進(jìn)行人工特征旋轉(zhuǎn)干擾試驗(yàn)。

Reference

[1]. Grinsztajn, Léo, Edouard Oyallon, and Gaël Varoquaux. “Why do tree-based models still outperform deep learning on tabular data?.” arXiv preprint arXiv:2207.08815 (2022).

[2]. Fisher, Walter D. “On grouping for maximum homogeneity.” Journal of the American statistical Association 53, no. 284 (1958): 789-798.

[3]. https://blog.csdn.net/LoseInVain/article/details/80339201, 《理解多維高斯分布》

[4]. Andrew Y. Ng. Feature selection, L 1 vs. L 2 regularization, and rotational invariance. In Twenty-First International Conference on Machine Learning - ICML ’04, page 78, Banff, Alberta, Canada, 2004. ACM Press. doi: 10.1145/1015330.1015435.

聲明:本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表電子星球立場(chǎng)。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴,請(qǐng)聯(lián)系:editor@netbroad.com
覺(jué)得內(nèi)容不錯(cuò)的朋友,別忘了一鍵三連哦!
贊 3
收藏 4
關(guān)注 52
成為作者 賺取收益
全部留言
0/200
成為第一個(gè)和作者交流的人吧