最大似然估计(MLE)和最大后验概率(MAP)的理智介绍

学习最大似然估计(MLE)等原理是令人沮丧的,一般来说,最大后验概率(MAP)和贝叶斯推理。造成这种困难的主要原因是,在我看来,很多教程都是假设以前的知识,使用隐式或不一致的符号,或者是在处理一个完全不同的概念,从而使这些原则超载。

上述问题使新来者很难理解这些概念,bepaly亚洲我经常遇到一些不幸被很多教程误导的人。因此,我决定对这些概念作一个理智的介绍,并在解释公式的每一步的同时,更详细地阐述它们之间的关系和隐藏的相互作用。bepaly亚洲我希望能带来一些新的东西来帮助人们理解这些原则。

最大似然估计

最大似然估计是一种方法或原理,用于估计给定观测值或观测值的模型参数。最大似然估计也缩写为MLE,它也被称为极大似然法。从这个名字,你可能已经知道这个原理是通过最大化可能性来工作的,因此,理解最大似然估计的关键是首先理解什么是似然,以及为什么有人想要最大化似然,以便估计模型参数。

让我们从连续情况的似然函数定义开始:

$$\数学l(\theta x)=p \theta(x)$$

左项表示“参数的可能性”(θ)。给定数据\(x\)”。现在,那是什么意思?这意味着在连续的情况下,具有参数化(θ)和数据(x)的模型的可能性是具有特定参数化的模型的概率密度函数(pdf)。

虽然这是最常用的可能性表示,您应该注意,在这种情况下,符号\(\mathcal l(\cdot \cdot)并不意味着与条件符号相同,所以小心超载,因为它总是含蓄地陈述,而且常常是混淆的根源。经常使用的可能性的另一种表示是\(\mathical l(x;θ)从某种意义上说,它更清楚地表明它不是有条件的,然而,它使它看起来像是数据的函数,而不是参数的函数。

模型\(p \ theta(x)\)可以是任何分布,为了使事情具体化,假设数据生成分布是单变量高斯分布,我们定义如下:

$$
\开始{Al}}
p(x)&\sim\mathcal n(\mu,σ^ 2)
P(X);亩\sigma^2)&\sim\frac 1 \sqrt 2 \pi \sigma \exp \bigg[-\frac 2 \bigg(\frac x-\mu \sigma \bigg)^2 \bigg
\{{Al}}
$$

如果用不同的参数绘制概率密度函数,你会得到类似下面的情节,其中红色分布是标准高斯分布1)):

正态分布概率密度函数的选择。平均值,μ和方差,西格玛,多种多样。图中给出了键。 来源:维基共享资源。

正如你在上面的概率密度函数(pdf)图中看到的,在不同给定的实现条件下,(x)的可能性显示在y轴上。另一个困惑的来源是,人们认为这是一种可能性,因为他们通常会看到这些正态曲线,其可能性总是低于1,然而,概率密度函数给你的不是概率而是密度。PDF的限制是它必须集成到一个:

$$\int-\infty ^+\infty f(x)dx=1美元

所以,对于许多不同的分布,许多点的密度大于1是完全正常的。以PDF为例β分布以下:

β分布的概率密度函数。资料来源:维基共享资源。

正如你所看到的,在分布的许多参数化中,PDF显示的密度高于1,当仍然积分为1并遵循第二个概率公理时:单位度量。

所以,回到我们原来的最大似然估计原理,我们要做的是最大化观测数据的可能性。实际上,这意味着我们要找到模型的参数(theta),该模型生成数据的可能性最大化,我们想找出这个模型的参数是最合理的为了生成这些观测数据,或者什么参数使这个样本最有可能?

对于我们的单变量高斯模型,我们想要的是找到参数\(\mu\)和\(\sigma^2\),为了便于记法,我们将其分解为一个单参数向量:

$$\theta=\begin bmatrix \mu\\160; \sigma^2\end bmatrix$

因为这些统计数据完全定义了我们的单变量高斯模型。那么让我们来讨论最大似然估计的问题:

$$
\开始{Al}}
\that \theta&=\mathrm arg \max \theta \mathcal l(\theta x)\123;
&=\mathrm arg \ max \ theta p \ theta(x)
\{{Al}}
$$

这说明我们希望通过最大化给定数据(x)的参数(θ)的可能性来获得最大似然估计,该估计近似于(p \theta(x)的基本“真”分布(p \theta ^*(x))。您不应混淆最大似然估计,即数据最大似然估计的实现。最大似然估计量所以要注意在你的头脑中消除歧义。

然而,我们需要在这个公式中包含多个观察结果,通过添加多个观测结果,我们得到了一个复杂的联合分布:

$$\that \theta=\mathrm arg \max \theta p \theta(x u 1,XY2\LDOTS,XYN)$$

这需要考虑到所有观测之间的相互作用。这就是我们作出强有力假设的地方:我们声明观察是独立的.独立随机变量意味着以下条件成立:

$$P \Theta(X_1,XY2\LDOTS,x n)=\产品i=1 ^ n p \ Theta(x i)$美元

也就是说,自从XY2\LDOTS,x)不包含彼此的信息,我们可以把联合概率写成它们的边际值的乘积。

另一个假设是,这些随机变量是均匀分布,这意味着它们来自相同的发电分布,这使得我们可以用同样的分布参数化来建模。

考虑到这两个假设,也被称为IID(独立且相同分布)我们可以将最大似然估计问题表述为:

$$\that \theta=\mathrm arg \max \theta\prod i=1 ^ n p \theta(x i)$美元

考虑到在许多情况下,我们所乘的密度非常小,bepaly亚洲在我们上面的产品中,将一个乘以另一个,我们可以得到非常小的值。bepaly亚洲这里是对数函数走向似然的地方。对数函数是严格单调递增函数,它保留了极值拥有非常好的财产:bepaly亚洲

$$\Log AB=\Log A+\Log B$$

如果乘积的对数是对数的和,这对我们来说很方便bepaly亚洲,所以我们将对数应用于可能性,以最大化所谓的对数似然

$$
\开始{Al}}
\that \theta&=\mathrm arg \max \theta \prod i=1 ^ n p \theta(x i)\\
&=\mathrm arg \ max U8; theta \ sum i=1 ^ n \ log p \ theta(x i)\日志
\{{Al}}
$$

正如你所看到的,我们从一个产品到一个总结,这就方便多了。应用对数的另一个原因是,我们经常求出导数并求出其参数。因此,求和比乘法容易得多。

我们还可以方便地求出对数可能性的平均值(假设我们只是包含一个常数的乘法):

$$
\开始{Al}}
\that \theta&=\mathrm arg \max \theta \sum i=1 ^ n \log p \theta(x i)\
&=\mathrm arg \ max \ theta \ frac 1 n \ sum i=1 ^ n \ log p \ theta(x i)125;
\{{Al}}
$$

这也很方便,因为它将消除对观测次数的依赖。我们也知道,通过大数定律,以下保留为\(n \ to \ infty \):

$$
\frac 1 n \ sum i=1 ^ n \ log\,P \θ(x i)约\mathbb e x \sim p \theta ^*(x)\左[\log\,P \ Theta(X)\Right]
$$

正如你所看到的,我们用经验期望由我们的数据集定义。这是一个重要的观点,通常是含蓄的假设。

大数弱律可以用切比雪夫定界来定界。如果你对集中不平等感兴趣,我已经做了在这里我讨论切比雪夫边界。

为了完成我们的配方,考虑到我们通常最小化目标,我们可以将最大似然估计与对数似然的负似然的最小化表示出来:

$$
\that \theta=\mathrm arg \min \theta-\mathbb e x\sim p \theta ^*(x)\ left[\log\,P \ Theta(X)\Right]
$$

这和否定完全一样,把最大化问题转化为最小化问题。

最大似然估计与信息论Kullback–Leibler偏差的关系

众所周知,最大化可能性与最小化Kullback-Leibler散度,也被称为KL发散。这很有趣,因为它链bepaly亚洲接了信息论最大似然原理。

KL发散定义为:

$$
\开始方程式
D_kl(P_q)=\int p(x)\log\frac p(x)q(x)\d x
\{{等式} }
$$

有很多直觉可以理解kl的发散性,我个人喜欢似然比,然而,关于它有很多资料,你可以很容易地找到,它不在本介绍的范围之内。

KL发散基本上是对数似然比在(p(x)分布下的期望值。下面我们要做的只是通过使用期望的一些特性和特性来重新表述它:

$$
\开始{Al}}
D kl[P \θ^*(x),\\Pθ(x)&=\mathbb e x\sim p \theta ^*(x)\ left[\log\frac p \theta ^*(x)p theta(x)\ right]\
\ label eq:对数商
&=\mathbb e x\sim p \ theta ^*(x)\ left[\log\,p \ theta ^*(x)–\ log\,P\theta(x)\right]\
\ label eq:线性化
&=\mathbb e x\sim p \ theta ^*(x)\ underbrace \ left[\log\,p \theta ^*(x)\right]\text \theta ^*(x)–\ underrace \mathbb e x \sim p \theta ^*(x)\ left[\log\,p \theta(x)\right]\text对数似然负
\{{Al}}
$$

在上述公式中,我们首先使用的事实是,商的对数等于分子和分母的对数差(方程式\(\Ref eq:LogQuotient \))。在此之后,我们使用期望的线性化(方程式(\Ref eq:线性化\)),这告诉我们\(\mathbb e \左[x+y\右]=\mathbb e \左[x\右]+\mathbb \左[y\右])。最后,我们只剩下两个条件,左边第一个是右边的那个你能认出是对数可能性为负我们之前看到的。

如果我们想最小化(θ)的kL发散,我们可以忽略第一项,因为它在任何方面都不依赖于(theta)。最后,我们得到了和以前一样的最大似然公式:

$$
\开始eqnarray
\需要取消
\theta ^*&=&\mathrm arg \min \theta \cancel \mathbb e x \sim p \theta ^*(x)\ left[\log\,P \ Theta ^*(x)(right)–\ MathBB E x \ Sim P \ Theta ^*(x)\ Left[\Log\,P \θ(x)\right]\
&=&\mathrm arg \min \theta-\mathbb e x\sim p \theta ^*(x)\ left[\log\,P \ Theta(X)\Right]
\Ent{EqnReal}
$$

条件日志可能性

机器bepaly亚洲学习中最常见的场景是监督学习,在这里,我们有数据点\(x_n\)和它们的标签\(y_n\)构建我们的数据集\(d=\(x_1,YY1)(XY2)YY2)\LDOTS,(Xyn,yyn)\\我们有兴趣估计给定的条件概率。或者更准确地说(P \ Theta(Y X)\)。

为了将极大似然原理推广到有条件的情况下,我们只需要把它写为:

$$
\that \theta=\mathrm arg \min \theta-\mathbb e x\sim p \theta ^*(y x)\ left[\log\,P \Theta(Y_X)\Right]
$$

然后可以很容易地将其归纳为线性回归:

$$
P \θ(y x)\sim\mathcal n(x^t\theta,σ^ 2)
P \Theta(Y X)=-N \Log \Sigma–\Frac N 2 Log 2 \Pi–\Sum I=1 ^ N \Frac X I T \Theta–Y 2 \Sigma^2
$$

在那种情况下,你可以看到,我们最终得到的平方误差之和与均方误差(mse)的最佳位置相同。所以你可以看到最小化MSE相当于最大化高斯模型的可能性。

关于最大似然的注记

最大似然估计具有非常有趣的性质,但它只给出了bepaly亚洲点估计,这意味着我们不能对这些估计的分布进行推理。相反,贝叶斯推理可以给出参数的完全分布。因此我们可以后向分布的原因.

我将写更多关于贝叶斯推理和抽样方法的文章,比如马尔可夫链蒙特卡罗(MCMC)家族的方法,但我会把这个留给另一篇文章,现在我将继续展示最大似然估计量与最大后验估计量(MAP)的关系。

最大值后验

虽然最大值是后验,又称地图,还为我们提供了一个点估计,它是一个贝叶斯概念,包含了参数优先权。我们还将看到该映射与正则化MLE估计有很强的联系。

我们从贝叶斯规则中知道,我们可以从似然和先验的乘积中得到后验。根据证据标准化:

$$
\开始{Al}}
p(\theta\vert x)&=\frac p \theta(x)p(\theta)p(x)\
\标签eq:proport
&\propto p \theta(x)p(\theta)
\{{Al}}
$$

在公式\(\Ref eq:Proport \)中,因为我们担心优化,我们取消了正常化的证据(P(x)并保持成比例的后位,这是非常方便的,因bepaly亚洲为\(p(x)的边缘化涉及集成,在许多情况下是难以处理的。

$$
\开始{Al}}
\theta map&=\mathop \rm arg\,max \ limits \theta p \theta(x)p(\theta)\
&=\mathop \rm arg\,max \ limits \ theta \ prod i=1 ^ n p \ theta(x i)p(\theta)123;
&=\mathop \rm arg\,max \ limits \ theta \ sum i=1 ^ n \ underrace \ log p \ theta(x i)\ text log probability \ underrace p(\theta)\ text prior
\{{Al}}
$$

在上述配方中,我们只是按照前面描述的最大似然估计的相同步骤,我们假设独立和相同的分配环境,然后是对数应用程序,从一个乘积切换到一个求和。正如你在最终配方中看到的,这相当于最大似然估计乘以前一项。

我们还可以通过使用统一的先验(p(\theta)、sim\textbf u(\cdot,\cDOT)。这意味着每一个可能的值(thetabepaly亚洲)都将被等量加权,这意味着它只是一个常数乘法:

$$
\开始{Al}}
\theta map&=\mathop \rm arg\,max \ limits \theta \ sum \log p \theta(x i)p(\theta)\
&=\mathop \rm arg\,max \ limits \ theta \ sum \ log p \ theta(x u i)\,\文本常量\ \
&=\underbrace \mathop \rm arg\,max \limits \theta \sum \log p \theta(x u i)\text相当于最大似然估计(MLE)\
\{{Al}}
$$

你在这里,具有统一先验的映射等价于MLE。也很容易证明高斯先验可以恢复L2正则化的MLE。这很有趣,考虑到它可以提供我们通常使用的正则化术语的见解和新视角。

希望你喜欢这篇文章!下一个是关于后验抽样的贝叶斯推理,在这里,我们将展示我们如何解释后验分布,而不仅仅是地图和MLE中的点估计。

—克里斯汀S.佩隆

克里斯蒂安S佩隆

6评论

  1. 令人惊叹的!这是我见过的对MLE最好的解释之一,它与KL散度和地图的联系。谢谢分享。

  2. 伟大的职位。谢谢您!

    然而,我认为在方程(16)和(17)中,期望值不是服从分布p而是服从均匀分布。方程式(19)-(21)很好,所以我不确定方程式(23)的要求。

    无论如何,这是我推荐的一个好帖子。

  3. 很好的解释,我读过的最清楚的书之一。

    在地图推导中,所使用的统一先验并没有在支撑上定义(我假设是-/+无穷大)。在这种情况下,优先权的选择似乎是有效的,因为我们可以将它作为一个常量从优化中删除。如果你想从先前的预测分布中取样,或者在θ上边缘化,那么所得分布是否有效(即集成到1)?

留下评论

您的电子邮件地址将不会发布。

此网站使用Akismet来减少垃圾邮件。了解如何处理评论数据.