本文轉(zhuǎn)自徐飛翔的“參數(shù)和非參數(shù)模型——當(dāng)我談到參數(shù)我在說(shuō)些什么”
版權(quán)聲明:本文為博主原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接和本聲明。
對(duì)觀察數(shù)據(jù)集進(jìn)行描述
假如現(xiàn)在給我們觀察數(shù)據(jù) ,其中
是表征這個(gè)觀察數(shù)據(jù)的特征和標(biāo)簽,其中的
表示特征維度, m m m表示樣本數(shù)量。 如果我們嘗試對(duì)這個(gè)觀察數(shù)據(jù)進(jìn)行模型描述,我們可以怎么描述呢?把這個(gè)問(wèn)題記住,我們繼續(xù)探討。
我們要認(rèn)識(shí)到,對(duì)觀察數(shù)據(jù)進(jìn)行描述,指的不光光是把所有數(shù)據(jù)一個(gè)字節(jié)一個(gè)字節(jié)地“記住”(memorize),而是嘗試用一個(gè)概率分布去描述這個(gè)觀察數(shù)據(jù),比如數(shù)據(jù)的聯(lián)合概率分布就可以很好地描述這個(gè)觀察數(shù)據(jù)。為什么呢?比如說(shuō)我們現(xiàn)在輸入樣本的特征是
是一個(gè)5維向量,標(biāo)簽
表征了其類別,那么概率:
(1.1)
這個(gè)概率表示了樣本 和標(biāo)簽
或者
同時(shí)出現(xiàn)的概率,通過(guò)計(jì)算邊緣概率分布,我們同樣知道了特征的概率分布:
(1.2)
我們?cè)谶@里不用考慮(1.1)這個(gè)概率是怎么計(jì)算出來(lái)的(實(shí)際上這個(gè)正是模型所做的事),我們只要知道通過(guò)這種手段可以去表達(dá)觀察數(shù)據(jù)集,我們把這個(gè)分布稱之為“模型”(不太準(zhǔn)確,但是可以這樣理解)。從這個(gè)分布中進(jìn)行采樣我們足以生成虛擬的樣本(生成模型的領(lǐng)域),當(dāng)然這都是后話了。同樣的,知道了這個(gè)分布,也足以解決我們的樣本分類問(wèn)題:
(1.3)
好的,那么我們現(xiàn)在的問(wèn)題就集中在如何才能得到(1.1)的概率分布了,也就是怎么建模了。我們終于要進(jìn)入正題了,哈哈哈哈。
總的來(lái)說(shuō),我們可以通過(guò)兩種方法進(jìn)行建模,一種稱之為參數(shù)化模型(parametric model),另一大類是非參數(shù)模型(non-parametric model)。注意,這里的“參數(shù)”和模型有沒(méi)有可以學(xué)習(xí)的參數(shù)(比如神經(jīng)網(wǎng)絡(luò)中的weight)是沒(méi)有關(guān)系的,非參數(shù)模型中可以有很多可學(xué)習(xí)的參數(shù),但是不妨礙它為非參數(shù)模型。那么我們的問(wèn)題就是怎么去理解這個(gè)“參數(shù)”了。參數(shù)化模型
對(duì)(1.1)的概率分布進(jìn)行建模,有一種最為直接的方法就是先假設(shè)這個(gè)分布是服從某個(gè)特定分布的,比如高斯分布,泊松分布等等,當(dāng)然這些分布中有些未知參數(shù)需要我們求得,而這些參數(shù)也正是決定了這個(gè)分布的形狀的,比如高斯分布的均值和協(xié)方差決定了不同的高斯分布,如下圖所示。
在這里插入圖片描述Fig 1. 不同均值和協(xié)方差的高斯分布。
我們也可以假設(shè)這個(gè)未知分布是多個(gè)已知分布的組合,比如多個(gè)高斯分布的組合,我們稱之為混合高斯模型(Gaussian Mixture Model,GMM),模型公式[1]如:
(2.1)
其實(shí)就是K個(gè)不同均值和協(xié)方差的高斯分布的混合,并且對(duì)此進(jìn)行了加權(quán)。
我們也可以假設(shè)我們的數(shù)據(jù)擬合曲線的形式,這個(gè)同樣也是在隱式地對(duì)概率分布進(jìn)行建模。經(jīng)典的包括線性回歸,邏輯斯蒂回歸等,其函數(shù)形式都是如同:
=
同樣的,整個(gè)函數(shù)的形式都是已經(jīng)確定了的,無(wú)非就是一個(gè)直線/超平面 而已,但是其具體的 的組合,決定了這個(gè)超平面的具體走向。
這個(gè)就是所謂的參數(shù)化模型,我們需要根據(jù)經(jīng)驗(yàn),觀察,專家知識(shí)等對(duì)數(shù)據(jù)分布進(jìn)行一定的假設(shè)后,然后對(duì)決定這個(gè)分布形狀的參數(shù)集 進(jìn)行求解,這個(gè)求解通常根據(jù)現(xiàn)有的觀察到的數(shù)據(jù)集進(jìn)行,這個(gè)參數(shù)集
是一個(gè)有限的集合。
我們可以推出一個(gè)結(jié)論就是,在參數(shù)化模型的框架下,無(wú)論我接下來(lái)觀察到多少數(shù)量的數(shù)據(jù),哪怕是無(wú)限多個(gè)數(shù)據(jù),我模型的參數(shù)量都只有固定數(shù)量多個(gè),那便是 。也就是說(shuō),用有界的參數(shù)量(復(fù)雜度)對(duì)無(wú)界的(數(shù)據(jù)量)的數(shù)據(jù)分布進(jìn)行了建模。
假如你的假設(shè)分布足夠靠譜,甚至是完全正確的,那么當(dāng)你通過(guò)一些觀察樣本,得到了參數(shù)集 之后,之后的預(yù)測(cè)結(jié)果將之和這個(gè)參數(shù)集有關(guān),后續(xù)的任何觀察樣本
都和預(yù)測(cè)結(jié)果無(wú)關(guān),表示為:
顯然這樣模型并不是很靈活,模型的可靠性強(qiáng)依賴于對(duì)數(shù)據(jù)的人工分析經(jīng)驗(yàn)等。非參數(shù)化模型
非參數(shù)化模型,和參數(shù)化模型截然相反的是,對(duì)數(shù)據(jù)分布不進(jìn)行任何的假設(shè),只是依賴于觀察數(shù)據(jù),對(duì)其進(jìn)行擬合。換句話說(shuō),其認(rèn)為數(shù)據(jù)分布不能通過(guò)有限的參數(shù)集進(jìn)行描述,但是可以通過(guò)無(wú)限維度的參數(shù)
進(jìn)行描述,無(wú)限維度也就意味著其本質(zhì)就是一個(gè)函數(shù)
。
通常,實(shí)際中的模型是對(duì)這個(gè)無(wú)限維度參數(shù)集的近似,比如神經(jīng)網(wǎng)絡(luò)中的參數(shù),雖然參數(shù)量通常很大,也有萬(wàn)有擬合理論保證其可以擬合函數(shù),但是其只是對(duì)無(wú)限維度數(shù)據(jù)的近似而已。由于非參數(shù)化模型依賴于觀察數(shù)據(jù),因此參數(shù)集能捕獲到的信息量隨著觀察數(shù)據(jù)集的數(shù)量增加而增加,這個(gè)使得模型更加靈活。
常見的模型歸屬
常見的參數(shù)化模型和非參數(shù)化模型有:
需要進(jìn)行解釋的是,神經(jīng)網(wǎng)絡(luò)可以看成是高斯過(guò)程的近似[2],因此神經(jīng)網(wǎng)絡(luò)也是非參數(shù)化模型,k-means在聚類過(guò)程中假設(shè)數(shù)據(jù)是球型分布的(也就是歐式距離還管用,歐式距離可以表征樣本之間的相似度的情況)。這里指的參數(shù)到底是啥
所以這里談到的參數(shù)到底是個(gè)啥呢?我認(rèn)為,這里的參數(shù)與否其實(shí)指的是是否用參數(shù)對(duì)模型的形狀進(jìn)行了顯式地描述,如有則是參數(shù)化模型,沒(méi)有,那么就是非參數(shù)化模型了。
Reference
[1]. https://blog.csdn.net/lin_limin/article/details/81048411
[2]. Radford M. Neal. Priors for infinite networks (tech. rep. no. crg-tr-94-1). University of Toronto, 1994a.