本文轉(zhuǎn)自徐飛翔的“概率學(xué)派和貝葉斯學(xué)派的區(qū)別”
版權(quán)聲明:本文為博主原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接和本聲明。
對(duì)于一個(gè)問題,從概率派和貝葉斯派看起來是完全不一樣的,其最主要的區(qū)別就是對(duì)于一個(gè)問題中模型參數(shù)的“信仰”:
對(duì)于頻率派學(xué)者來說,一個(gè)模型中的參數(shù)是“固定”的,而數(shù)據(jù)是在分布中隨機(jī)采樣的。我們要重點(diǎn)理解這個(gè)固定,這里指的固定意思是
對(duì)于一個(gè)模型或者也可說一個(gè)分布中的參數(shù),我們相信它是固定不變的,而我們觀察(采樣)到的數(shù)據(jù)是這個(gè)分布中的一個(gè)獨(dú)立同分布樣本。也就是說,我們相信這個(gè)分布的參數(shù)不管你怎么采樣,根據(jù)參數(shù)對(duì)其的估計(jì)都應(yīng)該是不會(huì)變的,They remain constant!如果根據(jù)數(shù)據(jù)估計(jì)出來的參數(shù)和真實(shí)模型不符合,只可能是引入了噪聲而已。在這個(gè)觀點(diǎn)中,模型參數(shù)才是上帝,數(shù)據(jù)為之服務(wù)。
對(duì)于貝葉斯派學(xué)者來說,我們觀察到的數(shù)據(jù)才是“固定”的,而我們的模型的參數(shù)才是在一直變化的。我們不停地觀察數(shù)據(jù),估計(jì)出來的模型參數(shù)就可能一直的變化。不僅如此,我們對(duì)于這個(gè)模型的參數(shù)可能會(huì)有一個(gè)最初始的信仰,稱之為先驗(yàn)假設(shè),一旦設(shè)置后了之后,我們就可以聽由觀察到的數(shù)據(jù)指導(dǎo)模型參數(shù)更新了。在這種觀點(diǎn)中,我們的模型參數(shù)不再是一個(gè)參數(shù),而是一個(gè)分布了。一般來說,對(duì)于貝葉斯派,有公式:
其中稱為后驗(yàn)概率,指的是由觀察數(shù)據(jù)和先驗(yàn)假設(shè)推測出來的參數(shù)分布,而
稱之為先驗(yàn)分布,指的是對(duì)于參數(shù)的專家知識(shí)或者假設(shè)而引入的知識(shí),可以指導(dǎo)參數(shù)
的學(xué)習(xí),而
稱之為似然函數(shù),指的就是由于觀察數(shù)據(jù)導(dǎo)致的參數(shù)更新。
我們舉個(gè)投硬幣的例子也說明下這兩者區(qū)別:
Question:現(xiàn)在我們有一個(gè)硬幣,假設(shè)朝向正面的幾率為 ,朝向反面的幾率為
,這個(gè)
是未知的,現(xiàn)在為了估計(jì)
,投擲了14次,其中有10次朝向正面,問再投擲兩次,都朝向正向的概率為多少。
在傳統(tǒng)的概率派解答中,因?yàn)橄嘈胚@個(gè)模型的參數(shù)是固定的,所以很容易知道 ,因此在后面投擲兩次的過程中,假設(shè)都是獨(dú)立過程,那么
而在貝葉斯派眼中,問題就沒有那么簡單了,我們相信參數(shù)不是簡單的一個(gè)參數(shù),而應(yīng)該是一個(gè)隨機(jī)變量,服從一個(gè)分布,那么我們就需要用觀察到了的數(shù)據(jù)
去估計(jì)這個(gè)參數(shù)
的分布,利用貝葉斯公式有:
因?yàn)樵谝阎^察中,
是固定的,所以
是一個(gè)常數(shù),不妨忽略它,有:
有:
參數(shù)可以忽略,現(xiàn)在對(duì)于先驗(yàn)假設(shè)
進(jìn)行假設(shè),一般來說,我們希望這個(gè)假設(shè)是一個(gè)共軛先驗(yàn)(conjugate prior)1。這里用Beta分布作為硬幣參數(shù)的先驗(yàn)假設(shè),
其中伽馬函數(shù)
定義為:
Beta分布有兩個(gè)控制參數(shù)a和b,不同的a和b其CDF的形狀差別很大:
在這個(gè)先驗(yàn)假設(shè)下,我們有:
同樣的,因?yàn)?是常數(shù)項(xiàng),忽略所以有:KaTeX parse error: No such environment: align at position 8: \begin{?a?l?i?g?n?}? P\{p|data\} &\…
為了讓
需要拼湊系數(shù),可知道系數(shù)為(這里不是特別懂)
其中為Beta函數(shù),
于是最終有參數(shù) 的概率分布為:
如果我們對(duì) 毫無先驗(yàn)可言,那么可以令
,這個(gè)時(shí)候的計(jì)算結(jié)果就和頻率學(xué)派的一模一樣,但是如果我們自認(rèn)為對(duì)這個(gè)硬幣的參數(shù)
有所了解,但是又不是完全了解,比如說我們知道這個(gè)先驗(yàn)應(yīng)該是一個(gè)均勻分布的(也就是正面和反面都應(yīng)該是0.5的,這個(gè)應(yīng)該是最樸素和直觀的假設(shè)了。),而均勻分布是Beta分布的一個(gè)特例,我們可以令
,這個(gè)時(shí)候有:
圖像如:
可以看到因?yàn)橐肓诉@個(gè)樸素的假設(shè),使得 變成了一個(gè)中心在
附近的鐘形分布,這個(gè)時(shí)候就發(fā)現(xiàn)了和頻率派的區(qū)別:我們的參數(shù)p是一個(gè)分布,而不只是一個(gè)數(shù)值而已。
有了 ,我們回歸原問題,求:
這里用積分的原因很簡單,就是因?yàn)槲覀兊膒是一個(gè)分布,其值從0到1,因此需要用積分。這里進(jìn)行兩個(gè)假設(shè):
投擲硬幣每一次都是獨(dú)立無關(guān)的。 在這接下來的兩個(gè)投擲過程中我們不更新
所以有:
所以有:
所以有:KaTeX parse error: No such environment: align at position 8: \begin{?a?l?i?g?n?}? P\{HH|data\} &…
同樣假設(shè)則有
,從這里就看出了頻率學(xué)派和貝葉斯學(xué)派的區(qū)別。
總結(jié)
頻率學(xué)派和貝葉斯學(xué)派的方法優(yōu)缺點(diǎn)概況:
頻率學(xué)派是目前深度學(xué)習(xí)中最常使用的指導(dǎo)思想,但是要想其效果好,必須基于數(shù)據(jù)量巨大的情況下,否則很難估計(jì)出一個(gè)好的參數(shù)。(因?yàn)槠洳灰肴魏蜗闰?yàn)假設(shè),只能從大數(shù)據(jù)中學(xué)習(xí)得到。) 貝葉斯學(xué)派的方法可以應(yīng)用在數(shù)據(jù)量小的情況下,而且方便引入各種專家知識(shí)和先驗(yàn)知識(shí),有些場景中表現(xiàn)更為優(yōu)越。
實(shí)際上,頻率學(xué)派和貝葉斯學(xué)派有著千絲萬縷的關(guān)系,不可割裂看待,也沒有孰優(yōu)孰劣。
Reference
- Bishop 《Pattern Recognize and Machine Learning, PRML》
- 《Are you a Bayesian or a Frequentist? (Or Bayesian Statistics 101)》
- 《Bayesian and frequentist reasoning in plain English》
- 《先驗(yàn)概率、后驗(yàn)概率以及共軛先驗(yàn)》