性无码一区二区三区在线观看,少妇被爽到高潮在线观看,午夜精品一区二区三区,无码中文字幕人妻在线一区二区三区,无码精品国产一区二区三区免费

徐土豆
認(rèn)證:優(yōu)質(zhì)創(chuàng)作者
所在專題目錄 查看專題
損失函數(shù)的可視化——淺論模型的參數(shù)空間與正則
曲線擬合問題與L2正則
生成模型和判別模型的區(qū)別
貝葉斯之旅||第二講,分類問題的兩大過程,推理和決策
貝葉斯之旅||第一講,貝葉斯決策
概率學(xué)派和貝葉斯學(xué)派的區(qū)別
作者動態(tài) 更多
給定計(jì)算預(yù)算下的最佳LLM模型尺寸與預(yù)訓(xùn)練數(shù)據(jù)量分配
2天前
大模型推理時的尺度擴(kuò)展定律
3天前
世界多胞體與世界模型
1星期前
獎勵模型中的尺度擴(kuò)展定律和獎勵劫持
1星期前
MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果
2星期前

貝葉斯之旅||第一講,貝葉斯決策

本文轉(zhuǎn)自徐飛翔的“貝葉斯之旅||第一講,貝葉斯決策

版權(quán)聲明:本文為博主原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接和本聲明。

為什么要貝葉斯?

我們在以前的文章《概率派和貝葉斯派的區(qū)別》中,曾經(jīng)討論過頻率學(xué)派和貝葉斯學(xué)派看待未知模型參數(shù)的一些觀點(diǎn),我們這里簡單描述下就是:

頻率學(xué)派相信我們的模型參數(shù)盡管未知,但是其是有一個真實(shí)的值的,只要我們的樣本足夠多,我們就可以準(zhǔn)確無偏地估計(jì)出這個真實(shí)的值出來;而貝葉斯學(xué)派相信我們的模型的未知參數(shù)是一個隨機(jī)變量,而不是一個簡簡單單的值,因此是符合一個分布的。也就是說,基于我們現(xiàn)有的樣本數(shù)據(jù),我們對模型中的未知參數(shù)的估計(jì)都是估計(jì)出這些未知參數(shù)先驗(yàn)分布的一些參數(shù)而已,比如高斯分布的均值和協(xié)方差矩陣等等,在貝葉斯學(xué)派眼中,模型的參數(shù)本身就不是確定的,因此只能用隨機(jī)變量表達(dá)。

我們從以上的區(qū)別中可以看出,在貝葉斯模型中,因?yàn)槊總€參數(shù)都是一個隨機(jī)變量,也即是符合某個分布的,如果我們對數(shù)據(jù)的來源有一定的自信(比如我們的數(shù)據(jù)是關(guān)于電子科技大學(xué)的男女比例,我們就會知道這個比例將會大到爆炸,這個我們是很有自信的,因此可以作為先驗(yàn)概率引入的。),那么你將可以通過假設(shè)參數(shù)分布的形式,引入你對數(shù)據(jù)的先驗(yàn)知識(prior knowledge),我們稱之為對參數(shù)的先驗(yàn)假設(shè),表示為。我們以后將會發(fā)現(xiàn),如果這個先驗(yàn)知識足夠合理,將會使得模型即使是在小規(guī)模的數(shù)據(jù)上訓(xùn)練,都可以獲得較為理想的效果,這點(diǎn)是頻率學(xué)派模型較難做到的。

總結(jié)來說,也就是貝葉斯模型在小數(shù)據(jù)集上具有更好的泛化性能,至于什么叫泛化性能,參考以前文章《經(jīng)驗(yàn)誤差,泛化誤差》。利用貝葉斯理論進(jìn)行分類

在進(jìn)行進(jìn)一步討論之前,我們對我們接下來需要用的的符號進(jìn)行統(tǒng)一的規(guī)定表示和解釋:

樣本(sample),,其中的 稱之為樣本的維度(dimension)。

狀態(tài)(state),第一類:?;第二類:,在其他文獻(xiàn)中,這個通常也稱之為類別(class),指的是某個樣本配對的類別屬性。    先驗(yàn)概率(prior), ,,指的是對某些類別的預(yù)先知道的知識,比如在預(yù)測某個病人是否是癌癥病人的例子,在沒有得到任何關(guān)于這個病人的信息之前,因?yàn)槲覀冎赖冒┌Y是一個較為低概率的事件,因此其先驗(yàn)概率 是一個很小的值。先驗(yàn)概率表現(xiàn)了我們對于某個知識的“信仰”。

樣本分布密度(sample distribution density), 。    類條件概率密度(class-conditional probablity density), , ,這個概率也經(jīng)常被稱之為似然概率(likelihood probablity)。

以上的術(shù)語將會在以后的文章中經(jīng)常見到,我們屆時再做更加深入的討論。

讓我們考慮一個情景:

給你 n n n個樣本作為已知的訓(xùn)練集,,其對應(yīng)的標(biāo)簽為, ,先給你一個新的樣本,其需要預(yù)測其標(biāo)簽。

這個就是基本的分類問題的情景,為了簡便,不妨將這里的標(biāo)簽看成是二分類標(biāo)簽。我們可以將這個分類問題等價為求 的概率大小,一般來說,如果 ,那么就可以將其判斷為第一類了對吧!反之亦然。

因?yàn)橛懈怕收撝械呢惾~斯公式,我們有:

因?yàn)?span>都是一樣的,因此在分類問題中,一般可以忽略這個項(xiàng),我們有:

其中,稱之為先驗(yàn)概率;稱之為似然概率,或者稱之為類條件概率; 稱之為后驗(yàn)概率(posterior)。其中,因?yàn)槲覀円呀?jīng)有了先前樣本以及其對應(yīng)的標(biāo)簽 ,因此可以估計(jì)出先驗(yàn)概率和似然概率出來(一般情況下,需要對似然概率進(jìn)行建模,我們后續(xù)再討論)。

總而言之,我們通過人工的先驗(yàn)概率,和從已有數(shù)據(jù)中學(xué)習(xí)到的似然概率中,可以得到后驗(yàn)概率,而后驗(yàn)概率為我們的分類提供了很重要的依據(jù)。決策論,如何做出一個合理的選擇

機(jī)器學(xué)習(xí)整個過程可以分為兩個階段,一是**推理(inference)階段,二是決策(decision)**階段。推理階段主要是從訓(xùn)練樣本集中估計(jì)出 分布,決策階段是根據(jù)這個聯(lián)合概率分布,如何作出一個合理的決策,對樣本進(jìn)行分類。

決策論(Decision Theory)[1]指導(dǎo)我們?nèi)绾胃鶕?jù)在推理階段得出的分布進(jìn)行合理的分類。一般來說,決策策略可分為最小錯誤分類率策略和最小期望損失策略,我們分別介紹下。最小錯誤分類率

最小分類錯誤率(minimizing the misclassification rate)策略的主要目的就是讓分類錯誤率最小化,這個在大多數(shù)情況下是適用的。我們先對分類錯誤率這個概念進(jìn)行定義,顯然,考慮二分類情況,將類別1的物體分類到了2或者相反就是誤分類了,用數(shù)學(xué)表達(dá)式表達(dá)就是:

其中的?稱之為決策區(qū)域(decision regions),如果輸入向量在決策區(qū)域下,那么該輸入向量的所有樣本都是被預(yù)測為了類。 表示將屬于類別 j j j的樣本分類為了類別。對于一個新樣本 ,為了最小化 ,我們應(yīng)該將其類別分到式子(2.1)中的被積函數(shù)中較小的一個,因?yàn)檫@樣,較大的一項(xiàng)就會因?yàn)闆Q策區(qū)域不適合而變?yōu)?了,因此只會剩下一項(xiàng)較小的。換句話說,就是如果,那么就將其預(yù)測為 。

我們這里引用[1] page 40 給出的圖示進(jìn)行理解,如下圖所示,其中表示決策邊界,大于將會被預(yù)測為第二類,小于則會被預(yù)測為第一類,于是,我們的決策錯誤率就是紅色區(qū)域,綠色區(qū)域和藍(lán)色區(qū)域的面積了。我們可以清楚的發(fā)現(xiàn),不管 怎么移動,綠色和藍(lán)色區(qū)域的和是一個常數(shù),只有紅色區(qū)域會在變化,因此直觀上看,只有當(dāng) 的時候,也就是的時候,才會有最小分類錯誤率。我們有:

也就是說,當(dāng) 時,選擇作為理論分類錯誤率最小的選擇。我們可以發(fā)現(xiàn),選擇具有最大后驗(yàn)概率的類別作為預(yù)測結(jié)果能夠達(dá)到最小分類錯誤率的效果,這個原則我們稱之為最大后驗(yàn)概率原則,同時,我們留意,在參數(shù)估計(jì)中也有一個稱之為**最大后驗(yàn)概率估計(jì)(maximize a posterior probablity, MAP)**的原則,請不要混淆。

當(dāng)類別多于2類時,比如有 類時,計(jì)算正確率將會更加方便,我們有:

同理的,同樣是選擇具有最大后驗(yàn)概率的類別作為預(yù)測結(jié)果,能夠達(dá)到最小分類錯誤率。

注意到,這個原則有一些等價的表達(dá)形式,我們將會在這個系列的附錄中進(jìn)行補(bǔ)充。最小期望損失

按道理來說,最小分類錯誤已經(jīng)可以在絕大多數(shù)任務(wù)中使用了,但是有一些任務(wù),比如醫(yī)生根據(jù)CT影像對病人進(jìn)行癌癥的診斷,在這些任務(wù)中,錯報和漏報可有著不同的后果。如果只是錯報,將沒有疾病的人診斷為病人,頂多再去進(jìn)行一次體檢排查,但是如果將有癌癥的患者漏報成沒有疾病的人,那么就可能錯失了最佳的治療時機(jī),因此這種情況下,這兩種錯誤方式可有著不同的代價。

為了對這個代價進(jìn)行數(shù)學(xué)描述,我們引入了一個**損失矩陣(loss matrix)**用來描述不同錯誤分類帶來的不同代價:

這個矩陣很好的描述了我們剛才的需求,讓我們用表示,其中表示其第 行, 列的元素。與最小化分類錯誤率不同的,我們定義一個代價函數(shù):

我們的目標(biāo)是最小化(3.1)。 當(dāng)然,如果你需要對一個樣本作出決策,你也許需要將其分解為:

這里的表示Risk,表示分類為類的風(fēng)險,當(dāng)然是越小越好。

因此總結(jié)來說,最小化風(fēng)險的計(jì)算步驟為:

1.計(jì)算后驗(yàn)概率:

2.計(jì)算風(fēng)險:

3.決策:

顯然,當(dāng)損失矩陣是一個單位矩陣的時候,最小分類錯誤率和最小分類風(fēng)險等價。

Reference

[1] Bishop C M. Pattern recognition and machine learning (information science and statistics) springer-verlag new york[J]. Inc. Secaucus, NJ, USA, 2006.

[2] 張學(xué)工. 模式識別[J]. 2010.

聲明:本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表電子星球立場。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴,請聯(lián)系:editor@netbroad.com
覺得內(nèi)容不錯的朋友,別忘了一鍵三連哦!
贊 4
收藏 3
關(guān)注 52
成為作者 賺取收益
全部留言
0/200
  • dy-J4n9lg5Q 2021-05-19 13:28
    比論文強(qiáng)一萬倍
    回復(fù)