Laplace(拉普拉斯)先验与L1正则化。Laplace(拉普拉斯)先验与L1正则化。

Laplace(拉普拉斯)先验与L1正则化

每当前头的一律篇博客中L1正则化及其推导演绎证明了L1正则化是什么如参数稀疏化人,并且干了L1正则化如果起贝叶斯的见看来是Laplace先验,事实上如果由贝叶斯的意,所有的正则化都是源于于对参数分布之先验。现在来拘禁一下为何Laplace先验会导出L1正则化,也顺手证明Gauss(高斯)先验会导出L2正则化。

Laplace(拉普拉斯)先验与L1正则化

在头里的一致篇博客中L1正则化及其推导演绎证明了L1正则化是安如参数稀疏化人,并且关系过L1正则化如果起贝叶斯的视角看来是Laplace先验,事实上如果由贝叶斯的见识,所有的正则化都是来自于对参数分布之先验。现在来拘禁一下为什么Laplace先验会导出L1正则化,也顺手证明Gauss(高斯)先验会导出L2正则化。

极端特别似然估计

森人对极端要命似然估计不掌握,用最好简便易行的线性回归之事例来说:如果有数据集\((X, Y)\),并且\(Y\)是出白噪声(就是与测量得到的\(Y\)与真的\(Y_{real}\)有均值为零星底高斯分布误差),目的是用新来的\(X\)来得到\(Y\)。如果就此线性模型来测量,那么闹:

\[ f(X) = \sum_i(x_i\theta_i) +
\epsilon = X\theta^T + \epsilon \tag{1.1} \]

其中\(X=(x_1, x_2…x_n)\),\(\epsilon\)是白噪声,即\(\epsilon \sim N(0,
\delta^2)\)。那么受有数据集\((X_i, Y_i)\)来用,在斯模型中\(X_i\)得到\(Y_i\)的票房价值是\(Y_i \sim N(f(X_i), \delta^2)\):

\[ P(Y_i|X_i, \theta) =
\frac{1}{\delta\sqrt{2\pi}} \exp(-\frac{\|f(X_i) –
Y_i\|^2}{2\delta^2}) \tag{1.2} \]

倘数据集中每一样针对数码都是独立的,那么对于数据集来说由\(X\)得到\(Y\)的几率是:

\[ P(Y|X,\theta)=
\prod_i\frac{1}{\delta\sqrt{2\pi}} \exp(-\frac{\|f(X_i) –
Y_i\|^2}{2\delta^2}) \tag{1.3} \]

基于决策论,就可以理解可以假设概率\(P(Y|X,\theta)\)最酷的参数\(\theta^*\)就是无限好的参数。那么我们可以一直获得最可怜似然估计的极致直观了解:对此一个模型,调整参数\(\theta\),使得用X得到Y的概率最特别。那参数\(\theta\)就足以由下式得到:

\[ \begin {split} \theta^* &=
argmax_{\theta} \left(\prod_i\frac{1}{\epsilon\sqrt{2\pi}}
\exp(-\frac{\|f(X_i) – Y_i\|^2}{2\delta^2})\right) \cr
&=argmax_{\theta} \left( -\frac{1}{2\delta^2} \sum_i \|f(X_i) –
Y_i\|^2 + \sum_i ln(\delta\sqrt{2\pi}) \right) \cr
&=argmin_{\theta} \left(\sum_i \|f(X_i) – Y_i\|^2 \right)
\end {split} \tag{1.4} \]

斯就算是太小二乘胜计算公式。

最为深似然估计

森人数对顶特别似然估计不明了,用最好简便易行的线性回归之事例来说:如果有数据集\((X, Y)\),并且\(Y\)是发出白噪声(就是同测量得到的\(Y\)与真正的\(Y_{real}\)有均值为零星的高斯分布误差),目的是用新产生的\(X\)来得到\(Y\)。如果就此线性模型来测量,那么闹:

\[ f(X) = \sum_i(x_i\theta_i) +
\epsilon = X\theta^T + \epsilon \tag{1.1} \]

其中\(X=(x_1, x_2…x_n)\),\(\epsilon\)是白噪声,即\(\epsilon \sim N(0,
\delta^2)\)。那么吃有些数据集\((X_i, Y_i)\)来所以,在此模型中\(X_i\)得到\(Y_i\)的票房价值是\(Y_i \sim N(f(X_i), \delta^2)\):

\[ P(Y_i|X_i, \theta) =
\frac{1}{\delta\sqrt{2\pi}} \exp(-\frac{\|f(X_i) –
Y_i\|^2}{2\delta^2}) \tag{1.2} \]

若果数据汇总每一样针对性数据还是单独的,那么对数据集来说由\(X\)得到\(Y\)的几率是:

\[ P(Y|X,\theta)=
\prod_i\frac{1}{\delta\sqrt{2\pi}} \exp(-\frac{\|f(X_i) –
Y_i\|^2}{2\delta^2}) \tag{1.3} \]

据悉决策论,就可知晓可以假设概率\(P(Y|X,\theta)\)最可怜之参数\(\theta^*\)就是太好之参数。那么我们可直接拿走最特别似然估计的太直观了解:于一个型,调整参数\(\theta\),使得用X得到Y的概率最老。那参数\(\theta\)就足以由下式得到:

\[ \begin {split} \theta^* &=
argmax_{\theta} \left(\prod_i\frac{1}{\epsilon\sqrt{2\pi}}
\exp(-\frac{\|f(X_i) – Y_i\|^2}{2\delta^2})\right) \cr
&=argmax_{\theta} \left( -\frac{1}{2\delta^2} \sum_i \|f(X_i) –
Y_i\|^2 + \sum_i ln(\delta\sqrt{2\pi}) \right) \cr
&=argmin_{\theta} \left(\sum_i \|f(X_i) – Y_i\|^2 \right)
\end {split} \tag{1.4} \]

其一就算是最为小二乘计算公式。

Laplace分布

Laplace概率密度函数分布为:

\[ f(x|\mu, b) = \frac{1}{2b}
\exp(-\frac{|x-\mu|}{b}) \tag{2.1} \]

分布之图像如下所示:

图片 1

图1 Laplace分布

得看到Laplace分布集中在\(\mu\)附近,而且\(b\)越小,数据的分布就更是集中。

Laplace分布

Laplace概率密度函数分布为:

\[ f(x|\mu, b) = \frac{1}{2b}
\exp(-\frac{|x-\mu|}{b}) \tag{2.1} \]

遍布之图像如下所示:

图片 2

图1 Laplace分布

得望Laplace分布集中在\(\mu\)附近,而且\(b\)越聊,数据的分布就一发集中。

Laplace先验导出L1正则化

先验的意是本着同一种未知的东西的只要,比如说我们看来一个刚方体的骰子,那么我们会借用而他的依次面朝上的概率都是\(1/6\),这个就算是先验。但事实上骰子的材料可能是密度不咸底,所以还要从数额集中学习到又仿佛现实情况的几率。同样,在机上中,我们见面冲部分曾掌握之知识对参数的布进行定之而,这个就是先验。有先验的补就得于比较小之数目集中发精彩的泛化性能,当然就是在先验分布是看似实际分布的景象下取得的了,从信息论的角度看,向网进入了无可非议先验这个信息,肯定会增强系统的性质。我们若参数\(\theta\)是之类的Laplace分布之,这就是Laplace先验:

\[ P(\theta_i) = \frac{\lambda}{2}
\exp(-\lambda|\theta_i|) \tag{3.1} \]

其中\(\lambda\)是控制参数\(\theta\)集中情况的超参数,\(\lambda\)越大那么参数的布就更集中在0附近。

每当头里所说之极其要命似然估计事实上是若了\(\theta\)是均匀分布的,也就是\(P(\theta)=Constant\),我们最大化的要后验估计,即凡:

\[ \begin {split} \theta^* &=
argmax_{\theta} \left(\prod_i P(Y_i|X_i, \theta) \prod_i
P(\theta_i)\right) \cr &=argmin_{\theta} \left(\sum_i
\|f(X_i) – Y_i\|^2 + \sum_i \ln(P(\theta_i))\right) \end
{split} \tag{3.2} \]

如果是Laplace先验,将式\((3.1)\)代入到式\((3.2)\)中可得:

\[ \theta^* =argmin_{\theta}
\left(\sum_i \|f(X_i) – Y_i\|^2 + \lambda \sum_i
|\theta_i|)\right) \tag{3.3} \]

随即就算是由于Laplace导出L1正则化,我以前面的如出一辙首博客中L1正则化及其推导分析过\(\lambda\)越怪,那么参数的分布就更是集中在0附近,这个与Laplace先验的剖析是一样的。

Laplace先验导出L1正则化

先验的意是对准同样栽未知的东西的若,比如说我们看来一个正方体的骰子,那么我们会借用而他的依次面朝上之几率都是\(1/6\),这个就是是先验。但其实骰子的材料可能是密度不统底,所以还要由数额集中学习到再次类似现实情况的票房价值。同样,在机器上中,我们见面冲局部早就知晓之知识对参数的遍布进行得之假设,这个就是是先验。有先验的功利虽好于比较小的数目集中发生理想的泛化性能,当然这是在先验分布是看似实际分布之景况下获得的了,从信息论的角度看,向网在了不易先验这个消息,肯定会加强系统的习性。我们要参数\(\theta\)是之类的Laplace分布的,这便是Laplace先验:

\[ P(\theta_i) = \frac{\lambda}{2}
\exp(-\lambda|\theta_i|) \tag{3.1} \]

其中\(\lambda\)是控制参数\(\theta\)集中情况的超参数,\(\lambda\)越大那么参数的遍布就一发集中在0附近。

在前边所说之尽特别似然估计事实上是如果了\(\theta\)是咸匀分布之,也不怕是\(P(\theta)=Constant\),我们最大化的设后验估计,即凡:

\[ \begin {split} \theta^* &=
argmax_{\theta} \left(\prod_i P(Y_i|X_i, \theta) \prod_i
P(\theta_i)\right) \cr &=argmin_{\theta} \left(\sum_i
\|f(X_i) – Y_i\|^2 + \sum_i \ln(P(\theta_i))\right) \end
{split} \tag{3.2} \]

如果是Laplace先验,将式\((3.1)\)代入到式\((3.2)\)中可得:

\[ \theta^* =argmin_{\theta}
\left(\sum_i \|f(X_i) – Y_i\|^2 + \lambda \sum_i
|\theta_i|)\right) \tag{3.3} \]

即就算是由于Laplace导出L1正则化,我以之前的同样首博客中L1正则化及其推导分析过\(\lambda\)越老,那么参数的遍布就进一步集中在0附近,这个和Laplace先验的辨析是同等的。

Gauss先验导出L2正则化

暨此地,我们好生随意地导出L2正则化,假而参数\(\theta\)的分布是顺应以下的高斯分布:

\[ P(\theta_i) =
\frac{\lambda}{\sqrt{\pi}} \exp(-\lambda\|\theta_i\|^2)
\tag{3.4} \]

代入式\((3.2)\)可以直接获取L2正则化:

\[ \theta^* =argmin_{\theta}
\left(\sum_i \|f(X_i) – Y_i\|^2 + \lambda \sum_i
\|\theta_i\|^2)\right) \tag{3.5} \]

【防止爬虫转载而造成的格式问题——链接】:
http://www.cnblogs.com/heguanyou/p/7688344.html

Gauss先验导出L2正则化

至此处,我们好死随便地导出L2正则化,假而参数\(\theta\)的布是抱以下的高斯分布:

\[ P(\theta_i) =
\frac{\lambda}{\sqrt{\pi}} \exp(-\lambda\|\theta_i\|^2)
\tag{3.4} \]

代入式\((3.2)\)可以直接获取L2正则化:

\[ \theta^* =argmin_{\theta}
\left(\sum_i \|f(X_i) – Y_i\|^2 + \lambda \sum_i
\|\theta_i\|^2)\right) \tag{3.5} \]

【防止爬虫转载而导致的格式问题——链接】:
http://www.cnblogs.com/heguanyou/p/7688344.html

相关文章

admin

网站地图xml地图