贝叶斯方法初探

最近想要系统了解下贝叶斯方法,本文所述内容来源于《贝叶斯统计》by茆诗松

【1】先验分布与后验分布

三种信息
总体信息:即总体分布或者总体所属分布族给我们的信息。
样本信息:从总体抽取的样本给我们的信息,人们通常希望经由对样本的加工和处理对总体的某些特征做出较为精确的统计推断。
先验信息:由经验或者历史资料所给定的有关统计问题的一些信息。
频率学派:基于总体信息和先验信息进行的统计推断称为经典统计学,其观点是将数据(样本)看成是来一一定概率分布的总体,所研究的对象是这个总体而不局限于数据本身。
贝叶斯学派:基于总体信息、样本信息和先验信息三种信息进行的统计推断称为贝叶斯统计学。认为任何一个未知量$\theta$都可以看做是一个随机变量,应该用一个概率分布去描述对$\theta$的未知状况。

频率学派与贝叶斯学派之间的差异:
• 对待先验信息的态度:
◦ 频率学派认为概率是用大量重复实验的频率确定的,并且认为概率是客观不变的。认为贝叶斯的先验引入是代入了人的主观性。
◦ 贝叶斯认为先验的引入将概率与统计的应用范围扩大到了不能大量重复的随机现象中,并且主观先验不是随意的,而是合理性的假设。认为频率学派中总体分布的选择产生的影响甚至大于先验分布选择的影响。
• 对样本的处理方法:
◦ 贝叶斯学派注重已出现的样本观察值,而对未发生的观察值不考虑。贝叶斯方法很重视先验信息的收集和挖掘加工,使之数量化形成先验分布,以提高统计推断的质量。认为忽视先验是一种浪费。
◦ 贝叶斯学派认为……
贝叶斯公式
• 设总体指标$X$有依赖于参数$\theta$的密度函数:
◦ 在经典统计中记为$p(x;\theta)$或者$p_\theta(x)$,表示在参数空间$\Theta={\theta}$不同$\theta$对应不同的分布.
◦ 但是在贝叶斯统计中记为$p(x|\theta)$,他表示在$\theta$给定某个值时,总体指标$X$的条件分布。
• 根据参数$\theta$的先验信息确定先验分布$\pi$,然后根据观察的样本来修正先验分布得到后验分布。

• 从贝叶斯观点看来,样本$x=(x_1,x_2,…,x_n) $的产生分为两步。首先假设从先验分布$\pi $产生一个样本$\theta’ $,这个样本$\theta’ $的给定是由上帝决定的。然后第二步是根据总体分布$p(x|\theta’) $产生一个样本$x=(x_1,x_2,…,x_n) $,这个样本是具体的人们可以见到的,因此该样本发生的概率是与如下的联合概率密度函数成正比:

这个密度函数综合了总体信息和样本信息,常被称为似然函数,记为$L(\theta’)$。在有了观察值$x=(x_1,x_2,…,x_n)$之后,总体和样本中所含的$\theta$信息都被包含在似然函数中。

• 由于$\theta’$是设想出来的,它仍然是未知的,是由先验分布$\pi(\theta)$产生的。要把先验信息综合不能只考虑$\theta’$,而应该对$\theta$的一切变化都加以考虑。故要将$\pi{\theta}$参与进来进一步综合,由此样本$x$和参数$\theta$的联合分布变为

由此把三种信息都综合进去了。

• 我们的任务是对未知数$\theta$做出统计推断。在没有样本信息时,我们根据先验分布对$\theta$做出推断,在有了观察值$x=(x_1,x_2,…,x_n)$之后,我们应该依据$h(x,\theta)$对$\theta$做出推断。为此将$h(x,\theta)$进行分解:

其中$m(x)$是边缘概率密度函数,可以由对$\theta$的积分得到。$m(x)$是一个与$\theta$无关的项,因此能够用来对$\theta$作出推断的只能是条件分布$\pi(\theta|x)$。他的计算式如下:

这就是贝叶斯公式的密度函数形式,在这个样本$x$的给定下,$\theta$的条件分布被称为后验分布。由于它集中了总体、样本和先验三种信息中有关$\theta$的一切信息,因此后验分布$\pi(\theta|x)$对$\theta$进行推断是有效且合理的。

• 先验分布反映了人们在抽样前对$\theta$的认识,后验分布反映人们在抽样后对$\theta$的认识。之间的差异是由于抽样样本$x$出现后人们对$\theta$的认识的一种调整。所以后验信息$\pi(\theta|x)$可以看作是人们用总体信息和样本信息对先验分布$\pi(\theta)$作调整的结果。

频率学派和贝叶斯学派均承认似然函数,但是在使用是是有差异的,具体今后详细概述
共轭先验分布
背景:
• 区间$(0,1)$上的均匀分布是贝塔分布$Be(1,1)$
• 二项分布$b(n,\theta)$的成功概率$\theta$的先验分布若取$Be(1,1)$,则其后验分布也是贝塔分布$Be(x+1,n-x+1)$
共轭先验分布:设$\theta$是总体分布中的参数,$\pi(\theta)$是先验密度函数,加入抽样信息后算得的后验密度函数与$\pi(\theta)$有相同的函数形式,则称$\pi(\theta)$是参数$\theta$的共轭先验分布。
共轭先验分布是针对分布中的参数而言的,如正太君知,正太方差,泊松均值等,脱离具体参数谈共轭先验分布没有意义
后验分布的优缺点:
优点:
• 计算方便,高斯的各种转化还是高斯。
• 后验分布的一些参数可解释
◦ 如正态均值的共轭先验分布是也是正态分布,后验分布的精度是样本均值分布的精度和先验分布精度之和,增加样本量$n$或者减少先验分布方差都有利于提高后验分布的精度。样本量$n$增大时,后验均值主要决定于样本均值,后验方差也越来越小。先验信息对后验分布的影响也越来越小。
缺点:
• 真实的后验分布应该有两个峰,样本均值和先验均值,但是共轭先验分布逼使后验分布只有一个峰,从而使得算得的后验和真实的后验存在一定的gap。
先验分布中所含的未知参数称为超参,超参数的确定可利用历史的先验信息来进行确定。
• 利用先验矩
• 利用先验分位数
• 利用先验矩和先验分位数
• 根据有限知识合理推断
多参数模型中的超参和单参数模型的超参选取方法类似,为了确定感兴趣的参数$\theta_1$可以将其他参数${\theta_1,\theta_2,…,\theta_n}$进行积分,得到$\theta_1$的边缘后验密度。

充分统计量

靠,搞不懂,暂时不写了。。。

【2】贝叶斯推断

条件方法
后验分布$\pi(\theta|x)$是样本$x$给定下$\theta$的条件分布,基于后验分布的统计推断就意味着只考虑一出现的数据(样本观察值),二认为未出现的数据与推断无关,这一观点称为条件观点,基于此观点提出的统计推断方法称为条件方法。
考虑频率学派和贝叶斯学派对参数$\theta$的估计方法的差异性:
频率学派认为参数$\theta$的无偏估计$\widetilde\theta(x)$为:

该平均是对样本空间总的所有可能出现的样本求的,但是实际中样本空间中绝大多数的样本尚未出现过,甚至重复数百次也不会出现的样本也要在评价估计量$\widetilde\theta$的好坏中占据一席之地,这是难以理解的。
贝叶斯学派的统计推断中不采用无偏性,采用后验概率对参数$\widetilde\theta$进行估计,常用的贝叶斯估计有三种:
最大后验估计$\theta_{MD}$:是后验分布的众数值对应的$\theta$值,即使得后验分布达到最大值的参数$\theta$。
后验中位数估计$\theta_{Me}$:指后验分布的中位数对应的参数值。
后验期望估计${\theta_E}$:指后验分布的期望值。

当后验分布是对称的时候,这三种估计重合。
值得注意的是:
• 在二项分布场合,$\theta$的后验你估计就是经典统计中的极大似然估计。
• $\theta$的后验期望估计${\theta_E}$要比最大后验估计$\theta_{MD}$更合适一些(小样本下后验期望估计比最大后验估计更能反应置信度上的差别)。
贝叶斯估计的误差
设参数$\theta$的后验分布$\pi(\theta|x)$,贝叶斯估计为$\widetilde\theta$,则$(\theta-\widetilde\theta)^2$的后验期望:

称为$\widetilde\theta$的后验均方差,其平方根称为$\widetilde\theta$的后验标准差,当$\widetilde\theta$为$\theta$的后验期望$\widetilde\theta_E=E(\theta|x)$时,

称为后验方差,后验均方差和后验方差之间的关系如下:

即:

这表明,当$\widetilde\theta$为$\theta$的后验期望$\widetilde\theta_E=E(\theta|x)$时,后验均方差达到最小值,所以实际中常使用后验均值作为$\theta$的贝叶斯估计值。
最大后验估计可以用以下几种方法计算:

  1. 解析方法,当后验分布的模能够用 closed form 方式表示的时候用这种方法。当使用en:conjugate prior 的时候就是这种情况。
    2.通过如共扼积分法或者牛顿法这样的数值优化方法进行,这通常需要一阶或者导数,导数需要通过解析或者数值方法得到。
    3.通过 期望最大化算法 (EM算法)的修改实现,这种方法不需要后验密度的导数。