700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 线性回归(频率学派-最大似然估计)与岭回归(贝叶斯角度-最大后验估计)的概率解释

线性回归(频率学派-最大似然估计)与岭回归(贝叶斯角度-最大后验估计)的概率解释

时间:2019-01-14 02:00:50

相关推荐

线性回归(频率学派-最大似然估计)与岭回归(贝叶斯角度-最大后验估计)的概率解释

回归问题的概率解释

线性回归的损失函数线性回归-最小二乘的概率解释(频率学派-最大似然估计)岭回归的损失函数岭回归的概率解释(贝叶斯学派-最大后验估计)结论最大后验估计与最大似然估计

线性回归的损失函数

J ( θ ) = 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta^Tx^{(i)})^2 J(θ)=21​i=1∑m​(y(i)−θTx(i))2

线性回归-最小二乘的概率解释(频率学派-最大似然估计)

当我们面对回归问题时,为什么会采用线性回归,最小二乘法来定义成本函数,即1/2的差的平方和。

这里给出概率解释:

我们拟合的直线的函数值即预测值必然和真实值会存在误差。那么假定一个等式:

y ( i ) = θ T x ( i ) + ϵ y^{(i)} = \theta^Tx^{(i)}+\epsilon y(i)=θTx(i)+ϵ

其中各个样本的误差项,是独立同分布且服从高斯分布(正态分布)。(可根据中心极限定理来看)

即就是:

ϵ ( i ) ∼ N ( 0 , σ 2 ) \epsilon^{(i)} \sim N(0,\sigma^2) ϵ(i)∼N(0,σ2)

P ( ϵ ( i ) ) = 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) P(\epsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma} exp(-\frac{(y^{(i)} -\theta^Tx^{(i)})^2}{2\sigma^2}) P(ϵ(i))=2π ​σ1​exp(−2σ2(y(i)−θTx(i))2​)

均值为0,容易理解.

所以,

P ( y ( i ) ∣ x ( i ) ; θ ) = 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) P(y^{(i)}|x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma} exp(-\frac{(y^{(i)} -\theta^Tx^{(i)})^2}{2\sigma^2}) P(y(i)∣x(i);θ)=2π ​σ1​exp(−2σ2(y(i)−θTx(i))2​)

也就是要面对 在 θ \theta θ为参数给定一个x时预测值y是真实值的概率服从正太分布,要求得概率最大时的?

使用最大似然估计

L ( θ ) = ∏ i = 1 m p ( y ( i ) ∣ x ( i ) ; θ ) = ∏ i = 1 m 1 2 π σ exp ⁡ ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) \begin{aligned} L(\theta) &=\prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)} ; \theta\right) \\ &=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \end{aligned} L(θ)​=i=1∏m​p(y(i)∣x(i);θ)=i=1∏m​2π ​σ1​exp(−2σ2(y(i)−θTx(i))2​)​

l ( θ ) = ln ⁡ ( L ( θ ) ) = ln ⁡ ∏ i = 1 m 1 2 π σ exp ⁡ ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) = ∑ i = 1 m ln ⁡ 1 2 π σ exp ⁡ ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) = m l n 1 2 π σ − 1 σ 2 ⋅ 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 \begin{aligned} l(\theta) &=\ln (L(\theta)) \\ &=\ln \prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \\ &=\sum_{i=1}^{m} \ln \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \\ &=m l n \frac{1}{\sqrt{2 \pi} \sigma}-\frac{1}{\sigma^{2}} \cdot \frac{1}{2} \sum_{i=1}^{m}\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2} \end{aligned} l(θ)​=ln(L(θ))=lni=1∏m​2π ​σ1​exp(−2σ2(y(i)−θTx(i))2​)=i=1∑m​ln2π ​σ1​exp(−2σ2(y(i)−θTx(i))2​)=mln2π ​σ1​−σ21​⋅21​i=1∑m​(y(i)−θTx(i))2​

根据此过程,要求此函数的最大值 ,需求上式中后项函数 J ( θ ) J(\theta) J(θ) 的最小值,

J ( θ ) = 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta^Tx^{(i)})^2 J(θ)=21​i=1∑m​(y(i)−θTx(i))2

此函数又即为最小二乘估计的目标函数。

岭回归的损失函数

J ( θ ) = 1 2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 + λ ∣ ∣ θ ∣ ∣ 2 2 J(\theta) = \frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta^Tx^{(i)})^2+\lambda||\theta||_2^2 J(θ)=21​i=1∑m​(y(i)−θTx(i))2+λ∣∣θ∣∣22​

岭回归的概率解释(贝叶斯学派-最大后验估计)

以贝叶斯学派得角度来看:

我们引入高斯噪声 ϵ \epsilon ϵ 来看可以知道:

y ( i ) ∣ θ ∼ N ( 0 , σ 0 2 ) y^{(i)}|\theta \sim N(0, \sigma_0^2) y(i)∣θ∼N(0,σ02​)

也就是:

P ( y ∣ θ ) = 1 2 π σ e x p ( − ( y − θ T x ) 2 2 σ 2 ) P(y|\theta) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{} -\theta^Tx^{})^2}{2\sigma^2}) P(y∣θ)=2π ​σ1​exp(−2σ2(y−θTx)2​)

我们假定参数 θ \theta θ 也服从一个高斯分布:

P ( θ ) = 1 2 π σ 0 e x p ( − ∣ ∣ θ ∣ ∣ 2 2 2 σ 0 2 ) P(\theta) = \frac{1}{\sqrt{2\pi}\sigma_0}exp(-\frac{||\theta||^2_2}{2\sigma_0^2}) P(θ)=2π ​σ0​1​exp(−2σ02​∣∣θ∣∣22​​)

以及贝叶斯定理:

P ( θ ∣ y ) = P ( y ∣ θ ) P ( θ ) P ( y ) P(\theta|y) = \frac{P(y|\theta)P(\theta)}{P(y)} P(θ∣y)=P(y)P(y∣θ)P(θ)​

根据最大后验估计:

θ ^ = arg ⁡ max ⁡ θ P ( θ ∣ y ) = arg ⁡ max ⁡ P ( y ∣ θ ) ⋅ P ( θ ) = arg ⁡ max ⁡ θ log ⁡ [ P ( y ∣ θ ) ⋅ P ( θ ) ] = arg ⁡ max ⁡ θ log ⁡ ( 1 2 π σ ⋅ 1 2 π σ 0 ) + log ⁡ exp ⁡ { − ( y − θ 2 x ) 2 2 σ 2 − ∥ θ ∥ 2 2 σ 0 2 } = arg ⁡ min ⁡ θ ( y − θ 2 x ) 2 2 σ 2 + ∥ θ ∥ 2 2 σ 0 2 = arg ⁡ min ⁡ θ ( y − θ 2 x ) 2 + σ 2 σ 0 2 ∥ θ ∥ 2 \begin{aligned} \hat{\theta} &=\arg \max _{\theta} P(\theta | y)=\arg \max P(y | \theta) \cdot P(\theta) \\ &=\arg \max _{\theta} \log [P(y | \theta) \cdot P(\theta)] \\ &=\arg \max _{\theta} \log \left(\frac{1}{\sqrt{2 \pi} \sigma} \cdot \frac{1}{\sqrt{2 \pi} \sigma_{0}}\right)+\log \exp \left\{-\frac{\left(y-\theta^{2} x\right)^{2}}{2 \sigma^{2}}-\frac{\|\theta\|^{2}}{2 \sigma_{0}^{2}}\right\} \\ &=\arg \min _{\theta} \frac{\left(y-\theta^{2} x\right)^{2}}{2 \sigma^{2}}+\frac{\|\theta\|^{2}}{2 \sigma_{0}^{2}} \\ &=\arg \min _{\theta}\left(y-\theta^{2} x\right)^{2}+\frac{\sigma^{2}}{\sigma_{0}^{2}}\|\theta\|^{2} \end{aligned} θ^​=argθmax​P(θ∣y)=argmaxP(y∣θ)⋅P(θ)=argθmax​log[P(y∣θ)⋅P(θ)]=argθmax​log(2π ​σ1​⋅2π ​σ0​1​)+logexp{−2σ2(y−θ2x)2​−2σ02​∥θ∥2​}=argθmin​2σ2(y−θ2x)2​+2σ02​∥θ∥2​=argθmin​(y−θ2x)2+σ02​σ2​∥θ∥2​

MAP: θ M A P ^ = arg ⁡ min ⁡ θ ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 + σ 2 σ 0 2 ∣ ∣ θ ∣ ∣ 2 \hat{\theta_{MAP}} = \arg~\min_{\theta} \sum_{i=1}{m}(y^{(i)}-\theta^Tx^{(i)})^2+\frac{\sigma^2}{\sigma_0^2}||\theta||^2 θMAP​^​=argθmin​i=1∑​m(y(i)−θTx(i))2+σ02​σ2​∣∣θ∣∣2

岭回归: J ( θ ) = ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 + λ ∣ ∣ θ ∣ ∣ 2 J(\theta) = \sum_{i=1}{m}(y^{(i)}-\theta^Tx^{(i)})^2+\lambda||\theta||^2 J(θ)=i=1∑​m(y(i)−θTx(i))2+λ∣∣θ∣∣2

结论

最小二乘估计 LSE <==> 极大似然估计 MLE(noise 为 高斯分布)

正则化最小二乘 RLSE <==> 最大后验概率估计MAP(先验和噪声均为高斯分布)

最大后验估计与最大似然估计

最大后验概率估计MAP相比于最大似然估计MLP多了一个假定服从某种分布的先验知识

参见 详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解 这篇博客。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。