性无码一区二区三区在线观看,少妇被爽到高潮在线观看,午夜精品一区二区三区,无码中文字幕人妻在线一区二区三区,无码精品国产一区二区三区免费

<cite id="rpah3"></cite>

認(rèn)證：優(yōu)質(zhì)創(chuàng)作者

所在專題目錄查看專題

數(shù)據(jù)，模型，算法共同決定深度學(xué)習(xí)模型效果

一文理解Ranking Loss/Contrastive Loss/Margin Loss/Triplet Loss/Hinge Loss

參數(shù)和非參數(shù)模型——當(dāng)談到參數(shù)我在說(shuō)些什么?

在深度學(xué)習(xí)中，對(duì)于特征融合方式的思考——論pointwise addition和concatenate的異同

損失函數(shù)的可視化——淺論模型的參數(shù)空間與正則

曲線擬合問(wèn)題與L2正則

作者動(dòng)態(tài) 更多

給定計(jì)算預(yù)算下的最佳LLM模型尺寸與預(yù)訓(xùn)練數(shù)據(jù)量分配

2天前

大模型推理時(shí)的尺度擴(kuò)展定律

3天前

世界多胞體與世界模型

1星期前

獎(jiǎng)勵(lì)模型中的尺度擴(kuò)展定律和獎(jiǎng)勵(lì)劫持

1星期前

MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果

2星期前

工程師都在看

7.6KW裂相并網(wǎng)逆變器系統(tǒng)設(shè)計(jì)

基于stm32采用PWM驅(qū)動(dòng)伺服控制器學(xué)習(xí)筆記

反激式電源為什么上電最容易燒MOS管？

從0到1設(shè)計(jì)BUCK(11) | 配置欠壓閉鎖的閾值，給電源加一道“安全門”

從0到1設(shè)計(jì)BUCK(12) | 配置反饋電阻，你的輸出電壓由你定義

反激式變壓器制作流程

開關(guān)電源模式大揭秘：BUCK電路如何“智能”應(yīng)對(duì)負(fù)載變化？

驅(qū)動(dòng)電路設(shè)計(jì)（十）——柵極電荷和應(yīng)用

Sallen-Key濾波器的高頻饋通現(xiàn)象及其對(duì)輸入阻抗的影響

曾129元，如今價(jià)值1W5的低功耗分析儀上的uA級(jí)電流檢測(cè)電路

參數(shù)和非參數(shù)模型——當(dāng)談到參數(shù)我在說(shuō)些什么?

徐土豆 2021-03-24 15:06 206 閱讀 4 贊 4 收藏 1 評(píng)論

本文轉(zhuǎn)自徐飛翔的“參數(shù)和非參數(shù)模型——當(dāng)我談到參數(shù)我在說(shuō)些什么”

版權(quán)聲明：本文為博主原創(chuàng)文章，遵循 CC 4.0 BY-SA 版權(quán)協(xié)議，轉(zhuǎn)載請(qǐng)附上原文出處鏈接和本聲明。

對(duì)觀察數(shù)據(jù)集進(jìn)行描述

假如現(xiàn)在給我們觀察數(shù)據(jù) $\mathcal{D} = \{\mathbf{X}_i, Y_i\}, i=0,\cdots,m$ ,其中 $\mathbf{X} \in \mathbb{R}^{n}, Y \in \mathbb{R}$ 是表征這個(gè)觀察數(shù)據(jù)的特征和標(biāo)簽，其中的表示特征維度， m m m表示樣本數(shù)量。如果我們嘗試對(duì)這個(gè)觀察數(shù)據(jù)進(jìn)行模型描述，我們可以怎么描述呢？把這個(gè)問(wèn)題記住，我們繼續(xù)探討。

我們要認(rèn)識(shí)到，對(duì)觀察數(shù)據(jù)進(jìn)行描述，指的不光光是把所有數(shù)據(jù)一個(gè)字節(jié)一個(gè)字節(jié)地“記住”（memorize），而是嘗試用一個(gè)概率分布去描述這個(gè)觀察數(shù)據(jù)，比如數(shù)據(jù)的聯(lián)合概率分布 $\mathrm{P}(\mathbf{X}, \mathrm{Y})$ 就可以很好地描述這個(gè)觀察數(shù)據(jù)。為什么呢？比如說(shuō)我們現(xiàn)在輸入樣本的特征是是一個(gè)5維向量，標(biāo)簽 $\mathrm{Y} = 1$ 表征了其類別，那么概率：

$P=（X=X_{1}，Y=1）=0.1$

$P=（X=X_{1}，Y=0）=0.3$ (1.1)

這個(gè)概率表示了樣本和標(biāo)簽或者同時(shí)出現(xiàn)的概率，通過(guò)計(jì)算邊緣概率分布，我們同樣知道了特征的概率分布：

$P(X)=\sum_{i}P（X,Y_{i}）$ (1.2)

我們?cè)谶@里不用考慮(1.1)這個(gè)概率是怎么計(jì)算出來(lái)的（實(shí)際上這個(gè)正是模型所做的事），我們只要知道通過(guò)這種手段可以去表達(dá)觀察數(shù)據(jù)集，我們把這個(gè)分布稱之為“模型”（不太準(zhǔn)確，但是可以這樣理解）。從這個(gè)分布中進(jìn)行采樣我們足以生成虛擬的樣本（生成模型的領(lǐng)域），當(dāng)然這都是后話了。同樣的，知道了這個(gè)分布，也足以解決我們的樣本分類問(wèn)題：

$P(Y_{j}|X)=\frac{P(X,Y_{j})}{P(X)}$

$=\frac{P(X,Y_{j})}{\sum_{i}P(X,Y_{j})}$ (1.3)

好的，那么我們現(xiàn)在的問(wèn)題就集中在如何才能得到(1.1)的概率分布了，也就是怎么建模了。我們終于要進(jìn)入正題了，哈哈哈哈。

總的來(lái)說(shuō)，我們可以通過(guò)兩種方法進(jìn)行建模，一種稱之為參數(shù)化模型(parametric model)，另一大類是非參數(shù)模型(non-parametric model)。注意，這里的“參數(shù)”和模型有沒(méi)有可以學(xué)習(xí)的參數(shù)（比如神經(jīng)網(wǎng)絡(luò)中的weight）是沒(méi)有關(guān)系的，非參數(shù)模型中可以有很多可學(xué)習(xí)的參數(shù)，但是不妨礙它為非參數(shù)模型。那么我們的問(wèn)題就是怎么去理解這個(gè)“參數(shù)”了。參數(shù)化模型

對(duì)(1.1)的概率分布進(jìn)行建模，有一種最為直接的方法就是先假設(shè)這個(gè)分布是服從某個(gè)特定分布的，比如高斯分布，泊松分布等等，當(dāng)然這些分布中有些未知參數(shù)需要我們求得，而這些參數(shù)也正是決定了這個(gè)分布的形狀的，比如高斯分布的均值和協(xié)方差決定了不同的高斯分布，如下圖所示。

在這里插入圖片描述Fig 1. 不同均值和協(xié)方差的高斯分布。

我們也可以假設(shè)這個(gè)未知分布是多個(gè)已知分布的組合，比如多個(gè)高斯分布的組合，我們稱之為混合高斯模型（Gaussian Mixture Model,GMM），模型公式[1]如：

$p(x)=\sum_{k=1}^{K}p(k)p(x|k)=\sum_{k=1}^{K}\pi_{k}N(x|\mu_{k},\sum{k})$ (2.1)

其實(shí)就是K個(gè)不同均值和協(xié)方差的高斯分布的混合，并且對(duì)此進(jìn)行了加權(quán)。

我們也可以假設(shè)我們的數(shù)據(jù)擬合曲線的形式，這個(gè)同樣也是在隱式地對(duì)概率分布進(jìn)行建模。經(jīng)典的包括線性回歸，邏輯斯蒂回歸等，其函數(shù)形式都是如同：

$y=\theta_{1}x_{1}+\theta_{2}x_{2}...+\theta_{n}$

=

$Θ∈R^{n},$ $(x_{1},x_{2,...,1})∈ \ \mathbb{R}^{n}$

同樣的，整個(gè)函數(shù)的形式都是已經(jīng)確定了的，無(wú)非就是一個(gè)直線/超平面而已，但是其具體的 $\Theta$ 的組合，決定了這個(gè)超平面的具體走向。

這個(gè)就是所謂的參數(shù)化模型，我們需要根據(jù)經(jīng)驗(yàn)，觀察，專家知識(shí)等對(duì)數(shù)據(jù)分布進(jìn)行一定的假設(shè)后，然后對(duì)決定這個(gè)分布形狀的參數(shù)集 $\Theta$ 進(jìn)行求解，這個(gè)求解通常根據(jù)現(xiàn)有的觀察到的數(shù)據(jù)集進(jìn)行，這個(gè)參數(shù)集 $\Theta$ 是一個(gè)有限的集合。

我們可以推出一個(gè)結(jié)論就是，在參數(shù)化模型的框架下，無(wú)論我接下來(lái)觀察到多少數(shù)量的數(shù)據(jù)，哪怕是無(wú)限多個(gè)數(shù)據(jù)，我模型的參數(shù)量都只有固定數(shù)量多個(gè)，那便是 $|\Theta|$ 。也就是說(shuō)，用有界的參數(shù)量（復(fù)雜度）對(duì)無(wú)界的（數(shù)據(jù)量）的數(shù)據(jù)分布進(jìn)行了建模。

假如你的假設(shè)分布足夠靠譜，甚至是完全正確的，那么當(dāng)你通過(guò)一些觀察樣本，得到了參數(shù)集 $\Theta$ 之后，之后的預(yù)測(cè)結(jié)果將之和這個(gè)參數(shù)集有關(guān)，后續(xù)的任何觀察樣本 $\mathcal{D}^{\prime}$ 都和預(yù)測(cè)結(jié)果無(wú)關(guān)，表示為：

$p(x|Θ,\mathcal{D}^{\prime})=p(x∣Θ)$

顯然這樣模型并不是很靈活，模型的可靠性強(qiáng)依賴于對(duì)數(shù)據(jù)的人工分析經(jīng)驗(yàn)等。非參數(shù)化模型

非參數(shù)化模型，和參數(shù)化模型截然相反的是，對(duì)數(shù)據(jù)分布不進(jìn)行任何的假設(shè)，只是依賴于觀察數(shù)據(jù)，對(duì)其進(jìn)行擬合。換句話說(shuō)，其認(rèn)為數(shù)據(jù)分布不能通過(guò)有限的參數(shù)集 $\Theta$ 進(jìn)行描述，但是可以通過(guò)無(wú)限維度的參數(shù) $\theta$ 進(jìn)行描述，無(wú)限維度也就意味著其本質(zhì)就是一個(gè)函數(shù) $f(\cdot) \in \mathbb{R}^{\infty}$ 。

通常，實(shí)際中的模型是對(duì)這個(gè)無(wú)限維度參數(shù)集的近似，比如神經(jīng)網(wǎng)絡(luò)中的參數(shù)，雖然參數(shù)量通常很大，也有萬(wàn)有擬合理論保證其可以擬合函數(shù)，但是其只是對(duì)無(wú)限維度數(shù)據(jù)的近似而已。由于非參數(shù)化模型依賴于觀察數(shù)據(jù)，因此參數(shù)集 $\theta$ 能捕獲到的信息量隨著觀察數(shù)據(jù)集的數(shù)量增加而增加，這個(gè)使得模型更加靈活。

常見的模型歸屬

常見的參數(shù)化模型和非參數(shù)化模型有：

需要進(jìn)行解釋的是，神經(jīng)網(wǎng)絡(luò)可以看成是高斯過(guò)程的近似[2]，因此神經(jīng)網(wǎng)絡(luò)也是非參數(shù)化模型，k-means在聚類過(guò)程中假設(shè)數(shù)據(jù)是球型分布的（也就是歐式距離還管用，歐式距離可以表征樣本之間的相似度的情況）。這里指的參數(shù)到底是啥

所以這里談到的參數(shù)到底是個(gè)啥呢？我認(rèn)為，這里的參數(shù)與否其實(shí)指的是是否用參數(shù)對(duì)模型的形狀進(jìn)行了顯式地描述，如有則是參數(shù)化模型，沒(méi)有，那么就是非參數(shù)化模型了。

Reference

[1]. https://blog.csdn.net/lin_limin/article/details/81048411

[2]. Radford M. Neal. Priors for infinite networks (tech. rep. no. crg-tr-94-1). University of Toronto, 1994a.

聲明：本內(nèi)容為作者獨(dú)立觀點(diǎn)，不代表電子星球立場(chǎng)。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴，請(qǐng)聯(lián)系：editor@netbroad.com

覺(jué)得內(nèi)容不錯(cuò)的朋友，別忘了一鍵三連哦！

贊 4

收藏 4

關(guān)注 52

成為作者賺取收益

專題目錄下一篇

下一篇：在深度學(xué)習(xí)中，對(duì)于特征融合方式的思考——論pointwise addition和concatenate的異同

全部留言

0/200

dy-J4n9lg5Q 2021-05-19 13:28

佩服樓主

回復(fù) 0條回復(fù) 收起回復(fù)
0/200

^{<sub id="3tkpv"></sub>}