最大似然估计(MLE)和最大后验(MAP)的合理介绍

学习最大似然估计(MLE)、一般最大后验(MAP)和贝叶斯推理。造成这种困难的主要原因是,在我看来,很多教程都假设了之前的知识,使用隐式或不一致的符号,或者是在处理一个完全不同的概念,因此,重载这些原则。

上述问题使新手很难理解这些概念,bepaly亚洲我经常遇到一些不幸被很多教程误导的人。因此,我决定对这些概念写一篇合理的介绍,并在解释公式的每一步时,详细阐述它们之间的关系和隐藏的交互作用。bepaly亚洲我希望带来一些新的东西来帮助人们理解这些原则。

最大似然估计

最大似然估计是一种方法或原理,用于估计一个或多个给定观测值的模型的一个或多个参数。极大似然估计也缩写为MLE,它也被称为极大似然法。从这个名字,你可能已经知道这个原理是通过最大化可能性来实现的,因此,理解最大似然估计的关键是首先理解什么是似然以及为什么有人想要最大化它以估计模型参数。

让我们从连续情况下似然函数的定义开始:

$$\数学l(\theta x)=p \theta(x)$$

左项表示“参数的可能性”(θ)。给定数据\(x \)”。现在,这是什么意思?这意味着在连续的情况下,具有参数化(θ)和数据(x)的模型的可能性是具有特定参数化的模型的概率密度函数(pdf)。

虽然这是最常用的似然表示,您应该注意,在这种情况下,符号\(\mathcal l(\cdot \cdot)并不意味着与条件符号相同,所以小心超载,因为它总是含蓄地陈述,而且常常是混淆的根源。另一种常用的可能性表示是\(\mathcal{L}(x;θ)这在某种意义上是更好的因为它清楚地表明它不是一个有条件的,然而,它使概率看起来像是数据的函数而不是参数的函数。

\(p_{\theta}(x)\)模型可以是任意分布,为了使事情具体化,假设数据生成分布是单变量高斯分布,我们的定义如下:

$$
开始\{对齐}
p(x) & \sim \mathcal{N}(\mu,\ \ \σ^ 2)
P(X);\亩,\sigma^2)&\sim\frac 1 \sqrt 2 \pi \sigma \exp \bigg[-\frac 2 \bigg(\frac x-\mu \sigma \bigg)^2 \bigg
\{{Al}}
$$

如果你用不同的参数画出这个概率密度函数,你会得到如下图,其中红色分布为标准高斯\(p(x)) \sim \mathcal{N}(0,1)):

正态分布概率密度函数的一种选择。的意思是,μ和方差,σ²,多种多样。图中给出了关键。 来源:维基共享。

从上面的概率密度函数图中可以看出,y轴显示了不同实现方式下\(x\)的可能性。另一个让人困惑的地方是,人们认为这是一个概率,因为他们通常会看到这些法线图而概率总是小于1,然而,概率密度函数给出的不是概率而是密度。pdf的限制是它必须集成到一个:

$ $ \ int_ {- \ infty} ^ {+ \ infty} $ $ f (x) dx = 1

所以,在许多不同的分布中,在许多点的密度都大于1是完全正常的。以PDF为例贝塔分布以下:

β分布的概率密度函数。来源:维基共享。

正如你所看到的,在分布的许多参数化中,PDF显示的密度高于1,当仍然积分为1并遵循第二个概率公理时:单位度量。

所以,回到我们原来的最大似然估计原理,我们要做的是最大化观测数据的可能性。这在实际中意味着我们想找到模型的参数\(\theta\)其中该模型生成数据的可能性最大,我们想知道是哪一个这个模型的参数是最合理的为了得到这些观测数据,或者说什么参数使得这个样本最有可能?

对于单变量高斯模型,我们想要的是找到参数\μ(\ \)和\ \σ^ 2 \,为了便于记法,我们将其分解为一个单参数向量:

$$\theta=\begin bmatrix \mu\\160; \sigma^2\end bmatrix$

因为这些统计数据完全定义了我们的单变量高斯模型。那么我们来表述一下最大似然估计的问题

$$
开始\{对齐}
{ \ \帽子θ} & = \ mathrm { arg } \ max_ \θ\ mathcal { L } \ \ \θ| x
& = \ mathrm { arg } \ max_ \θp_ { \θ}(x)
\{{Al}}
$$

这说我们想获得最大似然估计\(\帽子θ} { \ \)接近\(p_ { \θ}(x)\)到一个潜在的“真正”分布\(p_ { \θ^ * }(x)\)通过最大化的参数的可能性\θ(\ \)给定数据\(x \)。您不应混淆最大似然估计,即数据最大似然估计的实现。最大似然估计量所以要注意在头脑中消除歧义。

然而,我们需要在这个公式中包含多个观察结果,通过添加多个观测结果,我们得到了一个复杂的联合分布:

$$\that \theta=\mathrm arg \max \theta p \theta(x u 1,x_2,\ ldots,XYN)$$

这需要考虑到所有观测之间的相互作用。这就是我们作出强有力假设的地方:我们声明观察是独立的。独立随机变量意味着:

$$P \Theta(X_1,x_2,\ ldots,x_n)= \ prod_ { i = 1 } ^ { n } p_ { \θ}(x_i)$ $

这意味着由于\(x_1)x_2,\ ldots,x)不包含彼此的信息,我们可以把联合概率写成它们的边值的乘积。

另一个假设是,这些随机变量是均匀分布,这意味着它们来自相同的生成分布,这允许我们用相同的分布参数化来建模。

考虑到这两个假设,哪些也被称为IID(独立同分布)我们可以将最大似然估计问题表述为:

$ $ \帽子{ \θ} = \ mathrm { arg } \ max_ \θ\ prod_ { i = 1 } ^ { n } p_ { \θ}(x_i)$ $

考虑到在许多情况下,我们所乘的密度非常小,bepaly亚洲在上面的乘积中,一个乘以另一个可以得到非常小的值。bepaly亚洲这就是对数函数接近似然的地方。对数函数是一个严格单调递增的函数,这样就保留了。的位置极值它有一个很好的性质:bepaly亚洲

\log ab = \log a + \log b $$

其中乘积的对数是对数的和,这对我们来说很方便bepaly亚洲,我们将对数应用到可能性中来最大化对数似

$$
开始\{对齐}
\that \theta&=\mathrm arg \max \theta \prod i=1 ^ n p \theta(x i)\\
& = \ mathrm {arg} \ max_ \θ\ sum_ {i = 1} ^ {n} \ log p_{\θ}(x_i) \ \
\{{Al}}
$$

正如你所看到的,从乘积到求和,这样方便多了。应用对数的另一个原因是,我们经常求出导数并求出其参数。因此,求和比乘法容易得多。

我们还可以方便地平均对数似然(假设我们只是包含一个常数的乘法):

$$
开始\{对齐}
{ \ \帽子θ} & = \ mathrm { arg } \ max_ \θ\ sum_ { i = 1 } ^ { n } \ log p_ { \θ}(x_i)\ \
& = \ mathrm { arg } \ max_ \θ\压裂{ 1 } { n } \ sum_ { i = 1 } ^ { n } \ log p_ { \θ}(x_i)\ \
\{{Al}}
$$

这也很方便,因为它消除了对观察数量的依赖。我们也知道,,通过大数定律,以下为\(n\to\infty\):

$$
\frac 1 n \ sum i=1 ^ n \ log\,P \θ(x i)约\mathbb e x \sim p \theta ^*(x)\左[\log\,P \ Theta(X)\Right]
$$

正如你所看到的,我们用经验的期望定义的数据集\ (\ {x_i \} _ {i = 1} ^ {n} \)。这是一个重要的观点,通常隐含着假设。

弱大数定律可以用切比雪夫定界,如果你对浓度不等式感兴趣,我做了我讨论了切比雪夫边界。

为了完成我们的公式,考虑到我们通常最小化目标,我们可以用对数似然的负的最小值来表示相同的极大似然估计:

$$
\帽子{\θ}= \ mathrm {arg} \ min_ \θ- \ mathbb {E} _ {x \ sim p_{\θ^ *}(x)}左\ [\ log \,P \ Theta(X)\Right]
$$

这和求负是一样的把最大化问题变成最小化问题。

最大似然估计与信息论Kullback–Leibler偏差的关系

众所周知,使可能性最大化与使…最小化是相同的Kullback-Leibler散度,也被称为KL发散。这很有趣,因为它连bepaly亚洲接了一个度量信息理论最大似然原理。

KL发散定义为:

$$
开始\ {方程}
D_ {KL} (p | | q = \ int p (x) \ log \压裂{p (x)}{问(x)} \ dx
结束\{方程}
$$

理解KL散度有很多直观的方法,我个人喜欢这个观点似然比,然而,有很多关于它的资料,你可以很容易地找到,这超出了本文的介绍范围。

KL散度基本上是\(p(x)\)分布下对数似然比的期望。下面我们用期望的恒等式和性质重新表述一下

$$
开始\{对齐}
D kl[P \θ^*(x),\绿色\,p_ \θ(x)]& = \ mathbb { E } _ { x \ sim p_ { \θ^ * }(x)}左\[\ log \压裂{ p_ { \θ^ * }(x)} { p_ \θ(x)} \右]\ \
{情商:logquotient } \标签
&=\mathbb e x\sim p \ theta ^*(x)\ left[\log\,p \ theta ^*(x)–\ log\,p_ \θ(x) \] \ \
{情商:线性化} \标签
& = \ mathbb { E } _ { x \ sim p_ { \θ^ * }(x)}左\ underbrace { \[\ log \,p_{\θ^ *}(x) \]} _{{熵}\文本p_{\θ^ *}(x)} - \ underbrace {\ mathbb {E} _ {x \ sim p_{\θ^ *}(x)}左\ [\ log \,{\theta}(x) \右]}_{\text{负对数似然}}
\{{Al}}
$$

在上述公式中,我们首先利用商的对数等于分子和分母的对数之差的事实(方程\(\ref{eq: log除法}\))。然后我们使用期望的线性化(方程\(\ref{eq:linear}\)),它告诉我们\(\mathbb{E}\左[X + Y\右]= \mathbb{E}\左[X\右]+\mathbb{E}\左[Y\右]\)。最后,剩下两项,左边的第一个是右边的那个你能认出是负的对数似然我们之前看到的。

如果我们想最小化\(\)的KL散度,我们可以忽略第一项,因为它在任何方面都不依赖于(theta)。最后,我们得到了和以前一样的最大似然公式:

$$
\开始eqnarray
\需要{取消}
θ^ * & = & \ \ mathrm {arg} \ min_ \θ\取消{\ mathbb {E} _ {x \ sim p_{\θ^ *}(x)}左\ [\ log \,P \ Theta ^*(x)(right)–\ MathBB E x \ Sim P \ Theta ^*(x)\ Left[\Log\,P \θ(x)\right]\
& = & \ mathrm {arg} \ min_ \θ- \ mathbb {E} _ {x \ sim p_{\θ^ *}(x)}左\ [\ log \,P \ Theta(X)\Right]
结束\ { eqnarray }
$$

条件对数似

机器bepaly亚洲学习中一个很常见的场景是监督学习,其中我们有数据点\(x_n\)和它们的标签\(y_n\)构建我们的数据集\(D = \{(x_1,y_1),(XY2)YY2)\ ldots,(x_n最大)\ } \)我们有兴趣估计给定的条件概率。或者更准确地说(P \ Theta(Y X)\)。

为了将极大似然原理推广到有条件的情况下,我们只需要把它写为:

$$
\that \theta=\mathrm arg \min \theta-\mathbb e x\sim p \theta ^*(y x)\ left[\log\,(y | x) \右]
$$

然后可以很容易地将其归纳为线性回归:

$$
P \θ(y x)\sim\mathcal n(x^t\theta,\ \ \σ^ 2)
p_{\θ}(y | x) = - n \ log \σ- \压裂{n} {2} \ log{2 \π}- \ sum_ {i = 1} ^ {n}{\压裂{\ | x_i ^ T \θ- y_i \ |}{2 \σ^ 2}}
$$

在这种情况下,你可以看到,我们得到的平方误差的和与平均平方误差(MSE)的最优位置相同。所以你可以看到最小化MSE相当于最大化高斯模型的可能性。

关于最大似然的说明

最大似然估计具有非常有趣的性质,但它只给出了bepaly亚洲点估计,这意味着我们无法对这些估计值的分布进行推理。相反,贝叶斯推理可以给出参数的完全分布。因此我们可以关于后验分布的原因

我将会写更多关于贝叶斯推理和抽样方法的内容比如来自于蒙特卡洛(MCMC)家族的马尔可夫链,但我将把这个留给另一篇文章,现在我将继续展示最大似然估计量与最大后验估计量(MAP)的关系。

最大值后验

虽然最大值是后验,又称地图,还为我们提供了一个点估计,它是一个贝叶斯概念,包含了参数的先验。我们还将看到该映射与正则化MLE估计有很强的关系。

我们从贝叶斯规则中知道,我们可以从似然和先验的乘积中得到后验。根据证据归一化:

$$
开始\{对齐}
p(x \θ\绿色)& = \压裂{ p_ { \θ} p(x)(\θ)} { p(x)} \ \
{情商:proport} \标签
& \ propto p_ { \θ} p(x)(\θ)
\{{Al}}
$$

在公式\(\Ref eq:Proport \)中,因为我们担心最优化,我们取消了正常化的证据(P(x)并保持成比例的后位,这非常方便,因为\bepaly亚洲(p(x)\)的边缘化涉及到集成,并且在很多情况下很难处理。

$$
开始\{对齐}
\theta map&=\mathop \rm arg\,max \ limits \theta p \theta(x)p(\theta)\
&=\mathop \rm arg\,max \ limits \ theta \ prod i=1 ^ n p \ theta(x i)p(\theta)123;
&=\mathop \rm arg\,max \ limits \ theta \ sum i=1 ^ n \ underrace \ log p \ theta(x i)\ text log probability \ underrace p(\theta)\ text prior
\{{Al}}
$$

在上面的公式中,我们只是按照前面描述的步骤来进行最大似然估计,我们假设独立且分布相同,然后是对数应用程序,从乘积转换到求和。正如你在最终配方中看到的,这等价于最大似然估计乘以前一项。

我们还可以使用一个统一先验\(p(theta)) \sim \textbf{U}(\cdot,\cDOT)。这意味着\(\)的每一个可能的值都bepaly亚洲是相等的,这意味着它只是一个常数乘法:

$$
开始\{对齐}
地图\ theta_ {} & = \ mathop {\ rm arg \马克斯}\ limits_{\θ}\ sum_i \ log p_{\θ}(x_i) p(θ)\ \ \
&=\mathop \rm arg\,max \ limits \ theta \ sum \ log p \ theta(x u i)\,\文本常量\ \
&=\underbrace \mathop \rm arg\,max \limits \theta \sum \log p \theta(x u i)\text相当于最大似然估计(MLE)\
\{{Al}}
$$

你在这里,先验一致的映射等价于MLE。这也很容易证明高斯先验可以恢复L2正则化的MLE。这很有趣,考虑到它可以提供我们通常使用的正则化术语的见解和新视角。

希望你喜欢这篇文章!下一个是关于后验抽样的贝叶斯推理,我们将展示如何推理后验分布,而不仅仅是像MAP和MLE中所示的点估计。

—克里斯汀S.腓骨

介绍欧几里德SDB——机器学习特性数据库

上周我发布了第一个公共版本EuclidesDB。EuclidesDB是一个与PyTorch紧密耦合的多模型机器学习特征数据库,它提供了一个后端,用于包含和查询模型特征空间上的数据。

更多信息,看到bepaly亚洲娱乐bet888GitHub库或者是文档

欧几里德SDB的一些特点如下:

  • 用c++编写的性能;
  • 使用protobuf进行数据序列化;
  • 使用gRPC进行通讯;
  • 数据库序列化的LevelDB集成;
  • 许多索引方法的实现(骚扰法伊斯,等);
  • 通过libtorch实现紧密的pytorch集成;
  • 易于集成新的定制微调模型;
  • 轻松生成客户端语言绑定;
  • 免费和开放源码的许可;

这是整个建筑的示意图:

介绍

巴西上次总统选举的特点是大量资金被输送到数字机构和各种各样的使用Twitter的目标企业,bepaly育投注WhatsApp,甚至短信也可以通过目标定位策略传播内容。甚至在选举之前,记录剑桥分析提到他们的参与在巴西。

图像来源:MaxPixel。

是什么让巴西对这些微型目标公司如此脆弱,在我看来,是数字平台的普遍独创性。这种聪明才智的一个例子是,据称是为了监视政客并提供有关他们的信息而开发的应用程序的广泛传播,为了帮助你决定你的投票,书签的政客,等。但在现实中,很明显,这些应用程序只是捕获数据(例如地理位置、个人意见,人口统计学的,等)关于他们的用户,并打算以后出售或使用自己的目标。我甚至看到记者和一些非常知名的人支持这些应用程序。bepaly亚洲简单地说,大多数时候,当您不为产品(或应用程序)付费时,你的产品。

一项非常bepaly亚洲有趣的工作是实验吴友友(音译)在2014年做的一项研究表明,一个简单的正则化线性模型在使用Facebook点赞来识别某些个性特征时,准确率更高或更平等,这项研究使用了80k多名参与者的数据:

图来自:“基于计算机的个性判断更多
比人类制造的更精确。作者吴友友等。

上面的图表显示,你的Facebook上有70个赞,线性模型比你一个朋友的评价更准确,有150多个喜欢它的人可以达到对你家人评价的准确度。现在你可以理解为什么社会数据对于这些公司来说如此重要,以至于你很容易识别出个性特征和内容。

时间地图

在今年,其中一位候选人在第二轮投票前没有参加太多的辩论,而是主要使用数字平台来吸引选民。因此,bepaly育投注Twitter成为所有候选人都以某bepaly亚洲种方式探索的一种非常重要的媒介。本文的思想是使用一种称为离散事件可视化的技术时间地图它由Max C扩展到Twitter可视化。bepaly育投注华生的作品"时间图:用于可视化多个时间尺度上的许多离散事件的工具“(纸)可以在这里)不幸的是,没有多少人使用这些可视化,因为它们确实存在bepaly亚洲非常有趣的用于可视化中的活动模式多时间尺度在一块土地上。

时间映射背后的主要思想是,您可以可视化整个离散时间事件的事件前后时间。通过查看Max C所做的可视化解释,可以很容易地理解这一点。华生。

图片来源:时间地图:一个工具,用于可视化跨越多个时间尺度的许多离散事件。由马克斯·C。华生。

如右图所示,情节很简单,你可能要花些时间才能明白……的意思xY相互重合,但是一旦你掌握了这个概念,你会发现它们非常容易解释,而且在一个图中可以显示多少个模式。

时间图是对混沌场的一种适应,在混沌场中,时间图最初被用来研究水滴

一种容易理解的方法是看下面这两个系列及其各自的时间图:

图片来源:时间地图:一个工具,用于可视化跨越多个时间尺度的许多离散事件。由马克斯·C。华生。

但在绘制时间图之前,让我们来看看上周进入第二轮大选的两位候选人的一些基本形象。

基本的可视化

我只关注进入第二轮选举的两位候选人,他们的名字是睚珥Bolsonaro(总统)和费尔南多•哈达德(未当选)。第一个图将显示2018年全年每天的推文数量,其中一些红色标记表示第一轮和第二轮选举:

在这些情节,我们可以看到,在大选前,贾尔·布尔索纳罗更为活跃,对两位候选人来说,每天推特的总数总是在每轮选举前达到峰值,贾尔·布尔索纳罗的山峰出现的时间比费尔南多·哈达德早一点。我还用一条黑色的竖线标出了贾尔·布尔索纳罗在巴西街头被刺的那一天,你可以看到活动明显减少,之后恢复缓慢。bepaly亚洲

现在,让我们看看每个候选人的每日时间概况,以检查候选人更安静和更活跃的一天中的几个小时:

这些资料告诉我们非常有趣的信息,bepaly亚洲候选人在下午3点到4点之间最活跃,但对Jair Bolsonaro来说,看起来,下午3点是他最活跃的时间。真正有趣的是,在早上6点到8点之间,费尔南多·哈达德没有任何微博。

现在让我们看看2017年和2018年每个候选人的分布差异:

从这些图中我们可以看出,Jair Bolsonaro在2017年和2018年一样活跃,虽然费尔南多·哈达德在2017年并没有那么活跃,但在2018年(选举年)的一些推特上出现了巨大的波动。有趣的是,是不是从jair bolsonaro到tweet的模式在2018年从下午1点转到下午3点,而哈达德的时间也从下午1点改到了下午2点。可以假设,在他们不那么投入和习惯于午餐后发推特之前,但在选举年,这一惯例改变了(假设不是他们的员工为他们管理账户)因此,不仅有更多的推特,而且在一天中的每一个小时都有分布的变化。

时间图可视化

这些是Jair Bolsonaro的时间地图。第一个是时间图,颜色是一天的小时,第二个是热图,可以看到时间图中点的密度。

这是费尔南多·哈达德的时间地图:

现在,这些是非常有趣的时间bepaly亚洲地图。你可以在Jair Bolsonaro的时间地图上清楚地看到有两条条纹:左边垂直,顶部水平,分别显示当天的第一条和最后一条tweet。这是一个缓慢但稳定的推特活动,集中在热图上的1天波段。在费尔南多·哈达德,你可以看到条纹仍然可见,但不太集中。费尔南多哈达德的热图中也有两个主要的斑点,左下角的一个显示可能来自特定事件的快速tweet,右上角的blob显示通常的活动。

如果你对这些情节感兴趣,请看看马克斯·沃森博客文章他在书中解释了一些有趣的案例,比如来自白宫账户的推文。

用时间地图定位机器人

如果你好奇Twitter机器人是如何出现在时间地图上的,bepaly育投注这里有一个例子,我绘制了CozinhaBot的推文,在Twitter上不断发布一些随机食谱:bepaly育投注

正如你所看到的,图案很有规律,bepaly亚洲在热图中我们可以看到2小时之前的巨大密度点,这意味着这个机器人有一个众所周知的规则模式,bepaly亚洲而不是我们之前看到的人为模式。这些图没有少量的点,因为它有更少的tweet,但是因为它们遵循abepaly亚洲非常规则的间隔,这个情节包含的tweet数量几乎与我们从前几位总统候选人的例子中看到的相同。这非常有趣,因为bepaly亚洲它不仅可以用来发现twitter机器人,还可以识别哪些tweet是在机器人模式之外发布的。bepaly育投注

希望你喜欢!

—克里斯汀S.腓骨