16、参数估计
创始人
2024-05-30 18:40:11
0

概率基本定义

先验分布:

似然函数:

后验分布:

贝叶斯公式:,其中

后验分布 = 似然函数 × 先验分布 / P(D)

贝叶斯公式

假设,现在有两个一定概率发生的事件A和B,且它们之间存在一定的关系

  • P(A) 表示事件A发生的概率

  • P(B) 表示事件A发生的概率

  • P(A|B) 表示事件B已经发生的前提下,事件A发生的概率

  • P(B|A) 表示事件A已经发生的前提下,事件B发生的概率

极大似然估计(MLE)

极大似然估计方法(Maximum Likelihood Estimate,MLE)也称为最大概似估计或最大似然估计,是求估计的方法之一

简单来讲,极大似然估计就是给定模型,然后通过收集数据,求该模型的参数。

似然函数形式:

连乘不好求解,通常会进行一个对数变换,转换为累加:

伯努利分布

每一个样本的概率可以表示为:,x=0 or 1,是成功的概率

假设有n个样本,

对数最大似然函数表达式:

对上式求导,解得当,似然函数取得最大值

正态分布

样本概率表示为:

假设有n个样本,

对数最大似然函数表达式:

对上式求导,解得当,似然函数取得最大值

例子

路人甲在一个不透明的袋里放了若干个黑色和白色的球;路人乙想知道袋中球的情况,就从袋中有放回式取球,一共取了10次,有7次是白球,3次是黑球。问白球的比例是多少?

在这个例子中,每一次实验都是服从伯努利分布,我们设白球的概率为,每一次实验可以表示为,样本为,似然函数为:,取对数,求最大值为 = 0.7

最大后验估计(MAP)

Maximum A Posteriori Estimation

在最大似然估计的例子中,如果样本数量不够多,其实存在着很大的问题

MLE简单又客观,但是过分的客观有时会导致过拟合(Over fitting)。在样本点很少的情况下,MLE的效果并不好

一个最简单的例子就是,一个伯努利模型,我们知道通过最大似然估计得到的先验值为 ,那如果实验过程中,全部出现1或者0,那么估计出的参数显然是不对的

最大似然估计认为使似然函数 最大的参数 θ 即为最好的 θ ;

最大后验估计认为使 最大的参数 θ 即为最好的 θ ;

最大似然估计可以看作是一种特殊的最大后验估计,将 θ 看作是固定的, =1 。

最大后验概率估计的公式表示:(P(D)是一个常数,与 θ 无关)

要求解MAP,还需要知道参数的先验分布

正态分布

假设高斯分布方差已知,现在要估计均值,将均值记为 θ

每一个样本的概率可以表示为

假设 θ 服从高斯分布,,则

求解得到

例子

路人甲在一个不透明的袋里放了若干个黑色和白色的球,他感觉白色球更多;路人乙想知道袋中球的情况,就从袋中有放回式取球,一共取了10次,有7次是白球,3次是黑球。问白球的比例是多少?

每一次实验都是服从伯努利分布,我们设白球的概率为 θ ,所以每一次实验可以表示为:样本为

路人甲的感觉是白色球更多,需要给出一个 θ 的分布,假设 P(θ) = 2θ

后验概率函数:
取对数,求最大值 θ = 0.73

当样本个数无穷多的时候,MAP上会逼近MLE,因为样本足够多了,就不需要先验了,或者比起先验更相信样本。

贝叶斯估计

最大似然估计和最大后验估计都是估计了参数的具体值,但更令人信服的其实是参数的分布,知道参数在取每个值时的概率。

与最大后验估计一样,需要用到贝叶斯定理

需要知道先验分布 P(θ),但此时不再求 ,而要求出

这里如果先验分布十分复杂,上式会很难求解(因为要分母积分),所以一般会选择共轭先验。

二项分布参数的共轭先验是Beta分布,多项式分布参数的共轭先验是Dirichlet分布,指数分布参数的共轭先验是Gamma分布,⾼斯分布均值的共轭先验是另⼀个⾼斯分布,泊松分布的共轭先验是Gamma分布。

最大后验估计和贝叶斯估计也存在一个问题,实际应用场景中的先验概率不是那么好求,很多都是拍脑袋决定的。一旦是拍脑袋决定的,自然也就不准了,先验概率不准,那么计算出的后验概率也就相应的不准了

贝叶斯估计用来预测新测量数据的概率,对于新出现的数据 x

例子

路人甲在一个不透明的袋里放了若干个黑色和白色的球,他感觉白色球更多;路人乙想知道袋中球的情况,就从袋中有放回式取球,一共取了10次,有7次是白球,3次是黑球。问白球的比例是多少?

每一次实验都是服从伯努利分布,我们设白球的概率为 θ ,所以每一次实验可以表示为:样本为

路人甲的感觉是白色球更多,需要给出一个 θ 的分布,假设

后验概率函数

得到了参数的后验分布情况,得到

计算步骤

  1. 根据贝叶斯定理,计算后验概率P(θ|D)

  1. 计算新样本估计

总结

MLE、MAP是选择相对最好的一个模型, 贝叶斯方法则是通过观测数据来估计后验分布,并通过后验分布做群体决策,所以后者的目标并不是在去选择某一个最好的模型,而是去评估每一个模型的好坏。

参考于:一文解释 参数估计 - 知乎 (zhihu.com)

相关内容

热门资讯

监控摄像头接入GB28181平... 流程简介将监控摄像头的视频在网站和APP中直播,要解决的几个问题是:1&...
Windows10添加群晖磁盘... 在使用群晖NAS时,我们需要通过本地映射的方式把NAS映射成本地的一块磁盘使用。 通过...
protocol buffer... 目录 目录 什么是protocol buffer 1.protobuf 1.1安装  1.2使用...
在Word、WPS中插入AxM... 引言 我最近需要写一些文章,在排版时发现AxMath插入的公式竟然会导致行间距异常&#...
【PdgCntEditor】解... 一、问题背景 大部分的图书对应的PDF,目录中的页码并非PDF中直接索引的页码...
修复 爱普生 EPSON L4... L4151 L4153 L4156 L4158 L4163 L4165 L4166 L4168 L4...
Fluent中创建监测点 1 概述某些仿真问题,需要创建监测点,用于获取空间定点的数据࿰...
educoder数据结构与算法...                                                   ...
MySQL下载和安装(Wind... 前言:刚换了一台电脑,里面所有东西都需要重新配置,习惯了所...
MFC文件操作  MFC提供了一个文件操作的基类CFile,这个类提供了一个没有缓存的二进制格式的磁盘...