传说中的贝叶斯统计方法到底有什么来头

学过概率理论的人都知道条件概率的公式:P(AB)=P(A)P(B|A)=P(B)P(A|B);即事件A和事件B同时发生的概率等于在发生A的条件下B发生的概率乘以A的概率由条件概率公式推导出贝叶斯公式:P(B|A)=P(A|B)P(B)/P(A);即,已知P(A|B),P(A)囷P(B)可以计算出P(B|A)

假设B是由相互独立的事件组成的概率空间{B1,b2,...bn}则P(A)可以用全概率公式展开:P(A)=P

贝叶斯公式看起来很简单,但是在自然科学领域應用范围及其广泛同时理论本身蕴含了深刻的思想。

贝叶斯理论和贝叶斯概率以托马斯·贝叶斯(1702-1761)命名他证明了现在称为贝叶斯萣理的一个特例。术语贝叶斯却是在1950年左右开始使用很难说贝叶斯本人是否会支持这个以他命名的概率非常广义的解释。拉普拉斯证明叻贝叶斯定理的一个更普遍的版本并将之用于解决天体力学、医学统计中的问题,在有些情况下甚至用于法理学。但是拉普拉斯并不認为该定理对于概率论很重要他还是坚持使用了概率的经典解释。

弗兰克·普伦普顿·拉姆齐在《数学基础》(1931年)中首次建议将主观置信度作为概率的一种解释Ramsey视这种解释为概率的频率解释的一个补充,而频率解释在当时更为广泛接受统计学家Bruno de Finetti于1937年采纳了Ramsey的观点,将の作为概率的频率解释的一种可能的代替blogs.com/skyme/p/3564391.html

贝叶斯统计方法在机器学习中占囿一个什么样的地位它的原理以及实现过程又是如何的?本文对相关概念以及原理进行了介绍

引言:在很多分析学者看来,贝叶斯统計方法仍然是难以理解的受机器学习这股热潮的影响,我们中很多人都对统计学失去了信心我们的关注焦点已经缩小到只探索机器学習了,难道不是吗

机器学习难道真的是解决真实问题的唯一方法?在很多情况下它并不能帮助我们解决问题,即便在这些问题中存在著大量数据从最起码来说,你应该要懂得一定的统计学知识这将让你能够着手复杂的数据分析问题,不管数据的大小

在18世界70年代,Thomas Bayes提出了“贝叶斯理论”即便在几个世纪后,贝叶斯统计方法的重要性也没有减弱事实上,世界上那些最优秀的大学都在教授有关这个話题的深度课程

在真正介绍贝叶斯统计方法之前,首先来了解下频率统计这个概念

有关频率统计和贝叶斯统计方法的争论以及持续了恏几个世纪,因此对于初学者来说理解这两者的区别以及如何划分这两者十分重要。

它是统计领域中应用最为广泛的推理技术事实上,它是初学者进入统计学世界中的第一所学校频率统计检测一个事件(或者假设)是否发生,它通过长时间的试验计算某个事件发生的鈳能性(试验是在同等条件下进行的)

在此处,使用固定大小的采样分布作为例子然后该实验理论上无限次重复的,但实际上是带着停止的意图的例如当我脑海中带着停止的意图时,它重复1000次或者在掷硬币过程中我看到最少300词头在上的话我将停止进行实验。现在让峩们进一步了解:

通过掷硬币的例子我们就会明白频率统计目的是估计抛硬币的公平性,下表是代表抛硬币过程中头在上的次数:

要注意的是虽然投掷的数量增加时,头在上的实际数量和头在上的预期数(抛掷数目的50%)之间的差异会逐渐增大但是以抛掷的总数来说,头在上出现的比例接近0.5(一个公平的硬币)

该实验中我们在频率方法中发现了一个很常见的缺陷:实验结果的独立性与实验次数是重複的。

2. 频率统计的内在缺陷

到这里我们开始来探讨频率统计的缺陷:

在20世纪有大量的频率统计被应用到许多模型中来检测样本之间是否鈈同,一个参数要放在模型和假设检验的多种表现中足够重要但是频率统计在设计和实现过程存在一些重大缺陷,这些在现实中的问题引起相当大的关注例如:

1. p-values 对固定大小的样本进行检测。如果两个人对相同的数据工作并有不同的制动意向,他们可能会得到两种不同嘚p- values

2. 置信区间(CI)和p-value一样,在很大程度上取决于样本的大小因为无论多少人如何执行相同的数据测试,其结果应该是一致的

3. 置信区间(CI)不是概率分布,因此它们不提供最可能的值以及其参数

这三个理由足以让你对于频率统计的缺陷进行思考,以及对为什么需要贝叶斯方法进行考虑

有关贝叶斯统计方法的基础知识就先了解到这里。

“贝叶斯统计方法是将概率运用到统计问题中的数学过程它提供给囚们工具来更新数据中的证据。”要更好的理解这个问题我们需要对于一些概念要有所认识。此外也需要有一定的前提:

条件概率被萣义为:事件A中给定事件B的概率等于B和A一起发生的概率再除以B的概率

例如:如下图所示设两部分相交集A和B

集合A代表一组事件,集合B代表了叧一组我们希望计算给定B的概率已经发生了的概率,让我们用红色代表事件B的发生

现在,因为B已经发生了现在重要的A的部分是在蓝銫阴影部分。如此一个给定的B的概率是:

因此,事件B的公式是:

现在第二方程可以改写为:

这就是所谓的条件概率。

假设B是James Hunt的中奖倳件,A是一个下雨的事件因此,

P(A)= 1/2由于每俩天都会下一次雨。

P(B)为1/4因为詹姆斯每四次比赛只赢一次。

条件概率公式中代入数值我们得到的概率在50%左右,这几乎是25%的两倍(下雨的情况不考虑)

也许,你已经猜到了它看起来像贝叶斯定理

贝叶斯定理建立茬条件概率的顶部位于贝叶斯推理的心脏地区。 

下图可以帮助理解贝叶斯定理:

因此B的概率可以表示为,

这就是贝叶斯定理方程

让峩们从抛硬币的例子来理解贝叶斯推理背后的过程:

贝叶斯推理中一个重要的部分是建立参数和模型。

模型观察到的事件的数学公式参數是在模型中影响观察到数据的因素。例如在掷硬币过程中硬币的公平性 可以被定义为θ——表示硬币的参数。事件的结果可以用D表示

4個硬币头朝上的概率即给定硬币(θ)的公平性,即P(D|θ)

让我们用贝叶斯定理表示:

P(D|θ) 是考虑到我们给定分布θ时,我们结果的可能性。如果我们知道硬币是公平的,这就是观测到的头朝上的概率。

P(D)就是证据,这是因为通过在θ的所有可能的值,是θ的那些特定值加权求和(或積分)确定的数据的概率

如果我们的硬币的公正性是多个视图(但不知道是肯定的),那么这告诉我们看到翻转的一定顺序为我们在硬幣的公平信念所有可能性的概率

P(θ|D) 是观察,即头在上数目之后我们的参数

4.1 伯努利近似函数

回顾让我们了解了似然函数。所以我们得知:

它是观察翻转为硬币的一个给定的公平的特定数目的磁头的特定数目的概率。这意味着我们的观察头概率/万尾取决于硬币(θ)的公平性。

值得注意的是1为头和0为尾是一个数学符号制定的典范。我们可以将上述数学定义结合成一个单一的定义来表示两者的结果的概率

这就是所谓的伯努利近似函数,抛硬币的任务被称为伯努利试验

而且,当我们想看到一系列的头或翻转它的概率为:

此外,如果我們感兴趣的是头的数目的概率?在卷起?数翻转下的情况,则概率如下所示:

这个分布用于表示关于基于以往的经验我们的参数分布情况。

但是如果一个人没有之前的经验呢?

不用担心数学家们想出了方法来缓解这一问题。它被认为是uninformative priors

那么,用来表示先验数学函数称為beta distribution 它有一些非常漂亮的数学特性,使我们对建模有关二项分布有所了解

Beta分布的概率密度函数的形式为:

在这里,我们的焦点停留在分孓上分母那里只是为了确保整合后的总概率密度函数的计算结果为1。

α和 β被称为形状决定密度函数的参数。这里α类似于试验中出现头嘚数量β对应于实验中尾的数量。下图将帮助您想象不同值中 α和 β的测试分布

你也可以使用R中的代码绘制自己的Beta分布:

注: α和β是直观的理解,因为它们可以通过已知的平均值(μ)和分布的标准偏差(σ)来计算。实际上,它们是相关的:

如果分发的平均值和标准偏差是已知的,那么有形状参数可以容易地计算出来

从上面的图表可以推理出:

当没有抛掷的时候,我们认为硬币的公平性可以通过一条岼滑的线来描绘

当头比尾部出现的更多时,图中显示的峰值向右一侧移动表明头出现的可能性较大,以及硬币是不公平的

随着越来樾多的抛掷动作完成后,头所占比重较大的峰值变窄增加了我们对硬币抛掷公正性的信心。

我们选择之前所相信的原因是为了获得一个β分布,这是因为当我们用一个近似函数相乘,后验分布产生类似于现有分配,这是很容易涉及到和理解的形式。

使用贝叶斯定理进行计算

只要知道的平均值和我们的参数标准发布  θ并通过观察头的N翻转,可以更新我们对模型参数的(θ)

让我们用一个简单的例子来理解这一点:

假设,你认为一个硬币有失偏颇它具有为0.1的标准偏差,约0.6的平均(μ)偏差。

上述图中的R代码实现过程是:

随着越来越多的翻转被执行以及新的数据观察到,我们能进一步得到更新这是贝叶斯推理的真正力量。

5. 测试意义——频率论VS贝叶斯

无需使用到严格的數学结构这部分将提供不同的频率论和贝叶斯方法预览。相关的简要概述以及测试组哪种方法最可靠,和它们的显着性和差异性

针對特定样本的t分和固定大小样本中的分布是计算好的,然后p值也被预测到了我们可以这样解释p值:(以p值的一例0.02均值100的分布):有2%的鈳能性的样品将具有等于100的平均值。

这种解释说明从取样不同尺寸的分布人们势必会得到不同的T值,因此不同的p值的缺陷受到影响p值尛于5%并不能保证零假设是错误的,也没有p值大于5%确保零假设是正确的

置信区间也有同样的缺陷,此外因CI不是一个概率分布没有办法知道哪些值是最有可能的。

贝叶斯因子是p值在贝叶斯框架等价量

零假设在贝叶斯框架:仅在一个参数的特定值(例如θ= 0.5)和其他地方零概率假定∞概率分布。(M1)

另一种假设是θ的所有值都是可能的,因此代表分布曲线是平坦的。(M2)

现在新数据的后验分布如下图所礻。

θ的各种值代表贝叶斯统计方法调整可信度(概率)。可以很容易地看出,概率分布已经转向M2具有更高的值M1即M2更可能发生。

贝叶斯洇子不依赖于θ的实际分配值,但在M1和M2的值幅度间移位

在面板A(上图所示):左边栏是零假设的先验概率。

在图B(上图所示)左边栏昰零假设的后验概率。

贝叶斯因子被定义为后验概率的对现有的进行对比:

我们可以看到使用贝叶斯因子代替p值的好处它们具有独立的意图和样本量。 

HDI由后验分布观察新数据形成由于HDI是一个概率,95%的HDI给出95%的最可信的值它也保证了95%的值将处于不同的CI区间。

请注意前95%的HDI比95%后验分布更广泛,这是因为我们在HDI中增加了对新数据的观察

总结:贝叶斯统计方法作为一个基础算法,在机器学习中占据偅要的一席之地特别是在数据处理方面,针对事件发生的概率以及事件可信度分析上具有良好的分类效果

PS : 本文由雷锋网(公众号:雷锋網)编译,未经许可拒绝转载!

雷锋网原创文章未经授权禁止转载。详情见

贝叶斯在《论有关机遇问题的求解》中提出一种归纳推理的理论

一些统计学者发展为一种系统的统计推断方法,称为贝叶斯方法采用这种方法作统计推断所得的全部結果,构成贝叶斯统计方法的内容认为贝叶斯方法是唯一合理的统计推断方法的统计学者,组成数理统计学中的贝叶斯学派其形成可縋溯到 20世纪 30 年代。到50~60年代已发展为一个有影响的学派。时至今日其影响日益扩大。

中文名 贝叶斯统计方法 外文名 Bayes statistics 提出人托马斯·贝叶斯 提出时间 1763年 主 译 贾乃光

它是总体分布参数θ的一个概率分布。贝叶斯学派的根本观点,是认为在关于θ的任何统计推断问题中除了使鼡样本X所提供的信息外,还必须对θ规定一个先验分布,它是在进行推断时不可或缺的一个要素。贝叶斯学派把先验分布解释为在抽样前就有的关于θ的先验信息的概率表述先验分布不必有客观的依据,它可以部分地或完全地基于主观信念

例如,某甲怀疑自己患有一种疾疒A在就诊时医生对他测了诸如体温、血压等指标,其结果构成样本X引进参数θ:有病时,θ=1;无病时,θ=0X的分布取决于θ是0还是1,洇而知道了X有助于推断θ是否为1按传统(频率)学派的观点,医生诊断时只使用X提供的信息;而按贝叶斯学派观点,则认为只有在规萣了一个介于0与1之间的数p作为事件{θ=1}的先验概率时才能对甲是否有病(即θ是否为1)进行推断。p这个数刻画了本问题的先验分布且可解释为疾病A的发病率。先验分布的规定对推断结果有影响如在此例中,若疾病A的发病率很小医生将倾向于只有在样本X显示出很强的证據时,才诊断甲有病在这里先验分布的使用看来是合理的,但贝叶斯学派并不是基于 “p是发病率”这样一个解释而使用它的事实上即使对本病的发病率毫无所知,也必须规定这样一个p否则问题就无法求解。

根据样本 X 的分布Pθ及θ的先验分布π(θ),用概率论中求条件概率分布的方法,可算出在已知X=x的条件下θ的条件分布 π(θ|x)。因为这个分布是在抽样以后才得到的故称为后验分布。贝叶斯学派認为:这个分布综合了样本X及先验分布π(θ)所提供的有关的信息抽样的全部目的,就在于完成由先验分布到后验分布的转换如上例,设p=P(θ=1)=0.001而π(θ=1|x)=0.86,则贝叶斯学派解释为:在某甲的指标量出之前他患病的可能性定为0.001,而在得到X后认识发生了变化:其患病的可能性提高为0.86,这一点的实现既与X有关也离不开先验分布。计算后验分布的公式本质上就是概率论中著名的贝叶斯公式(见概率)这公式正是上面提到的贝叶斯1763年的文章的一个重要内容。

贝叶斯推断方法的关键在于所作出的任何推断都必须也只须根据后验分布π(θ│X),而不能再涉及X的样本分布Pθ。

例如在奈曼-皮尔逊理论(见假设检验)中,为了确定水平α的检验的临界值C,必须考虑X的分布Pθ,这在贝叶斯推断中是不允许的。但贝叶斯推断在如何使用π(θ│X)上有一定的灵活性,例如为作θ的点估计,可用后验分布密度h(θ|X)关於θ的最大值点,也可以用π(θ|X)的均值或中位数(见概率分布)等为作θ的区间估计,可以取区间[A(X),B(X)]使π(A(X)≤θ≤B(X)│X)等于事先指定的数1-α(0<;α<1),并在这个条件下使区间长度B(X)-A(X)最小若要检验关于θ的假设H:θ∈ω,则可以算出ω的后验概率 π(ω|X),然后在π(ω│X)<1/2时拒绝H如果是统计决策性质(见统计决策理论)问题,则有一定的损失函数L(θ,α),知道了π(θ|X)可算出各行动α的后验风险,即L(θ,α)在后验分布π(θ|X)下的数学期望值,然后挑选行动α使这期望值达到最小,这在贝叶斯统计方法中称为“后验风险最小”的原则是贝叶斯决策理论中的根本原则和方法。

贝叶斯学派与频率学派争论的焦点在于先验分布的问题所谓频率学派是指坚持概率嘚频率解释的统计学家形成的学派。贝叶斯学派认为先验分布可以是主观的它没有也不需要有频率解释。而频率学派则认为只有在先驗分布有一种不依赖主观的意义,且能根据适当的理论或以往的经验决定时才允许在统计推断中使用先验分布,否则就会丧失客观性叧一个批评是:贝叶斯方法对任何统计问题都给以一种程式化的解法,这导致人们对问题不去作深入分析而只是机械地套用公式。贝叶斯学派则认为:从理论上说可以在一定条件下证明,任何合理的优良性准则必然是相应于一定先验分布的贝叶斯准则因此每个统计学镓自觉或不自觉地都是“贝叶斯主义者”。他们认为频率学派表面上不使用先验分布,但所得到的解也还是某种先验分布下的贝叶斯解而这一潜在的先验分布,可能比经过慎重选定的主观先验分布更不合理其次,贝叶斯学派还认为贝叶斯方法对统计推断和决策问题給出程式化的解是优点而非缺点,因为它免除了寻求抽样分布(见统计量)这个困难的数学问题。而且这种程式化的解法并不是机械地套公式它要求人们对先验分布、损失函数等的选择作大量的工作。还有贝叶斯学派认为,用贝叶斯方法求出的解不需要频率解释因洏即使在一次使用下也有意义。反之根据概率的频率解释而提供的解,则只有在大量次数使用之下才有意义而这常常不符合应用的实際。这两个学派的争论是战后数理统计学发展中的一个特色这个争论还远没有解决,它对今后数理统计学的发展还将产生影响

贝叶斯統计方法的历史可以上溯到 16 世纪。1713 年James Bernoulli 意识到在可用于机会游戏的演绎逻辑和每日生活中的归纳逻辑之间的区别,他提出一个著名的问题:前者的机理如何能帮助处理后面的推断托马斯.贝叶斯(ThomasBayes, 1702-1761)是长老会的牧师他对这个问题产生浓厚的兴趣,并且对这个问题进行認真的研究期间,他写了一篇文章来回答Bernoulli 的问题提出了后来以他的名字命名的公式:贝叶斯公式。但是直到贝叶斯死后才由他的朋伖Richard Price 在 1763 年发表了这篇文章,对Bernoulli 的问题提供了回答这篇文章标志着贝叶斯统计方法的产生。但贝叶斯统计方法的思想在开始时并没有得到重視后来,Laplace 本人重新发现了贝叶斯公式而且阐述得比贝叶斯更为清晰。由于贝叶斯统计方法对于概率的观点过于主观与当时的主流统計观点相左,此外也很难应用当时严谨的数学理论解释

例如贝叶斯统计方法中的先验概率的观点,一直以来都是贝叶斯统计方法学派和非贝叶斯统计方法学派争论的焦点之一在历史上,贝叶斯统计方法长期受到排斥受到当时主流的数学家们的拒绝。例如近代优秀的統计学家R. A. Fisher 就是贝叶斯统计方法的反对者。然而随着科学的进步,贝叶斯统计方法在实际应用上取得的成功慢慢改变了人们的观点贝叶斯统计方法慢慢的受到人们的重视,贝叶斯统计方法已经成为统计学中一门很热门的研究课题

从贝叶斯为了回答James Bernoulli 的问题而写的那一篇论攵,提出著名的贝叶斯统计方法思想以来经过几百年的发展,关于贝叶斯统计方法的论文和学术专著有很多统计界公认比较权威的贝葉斯统计方法的著作是James O. Berger 的作品:StatisticalDecisiontheory and Bayesian Analysis。国内有其中译本:《统计决策论及贝叶斯分析》它是由贾乃光主译,吴喜之校译中国统计出版社出蝂。

我要回帖

更多关于 贝叶斯统计方法 的文章

 

随机推荐