李 璇

个人站

Whatever is worth doing at all is worth doing well


参数估计之最大似然估计(Maximum Likelihood Estimate,MLE)

简介

设总体 X 的分布函数的形式已知,但它的一个或多个参数未知,借助于总体 X 的样本来估计总体未知的参数的值得问题称为参数的点估计问题。

点估计问题的一般提法如下:设总体 X 的分布函数 F(x;θ) 的形式已知,θ 是待估计参数。X1,X2,,Xn 是 X 的一个样本,x1,x2,,xn 是相应的一个样本值。点估计问题就是要构造一个适当的统计量 ˆθ(X1,X2,,Xn),用它的观察值 ˆθ(x1,x2,,xn) 作为未知参数 θ 的近似值。我们称 ˆθ(X1,X2,,Xn) 为 θ 的估计量,称 ˆθ(x1,x2,,xn) 为 θ 的估计值。

最大似然估计法

利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值,即“模型已定,参数未知”。

离散型随机变量

总体 X 属于离散型,其分布律 P{X=x}=p(x;θ)θΘ 的形式为已知,θ 为待估计参数,Θ 是 θ 可能的取值范围。设 X1,X2,,Xn 是来自 X 的样本,则 X1,X2,,Xn 的联合分布律为: ni=1p(xi;θ)

设 x1,x2,,xn 是相应于样本 X1,X2,,Xn 的一个估计值。易知样本 X1,X2,,Xn 取到观察值 x1,x2,,xn 的概率,亦即时间 {X1=x1,X2=x2,,Xn=xn} 发生的概率为: L(θ)=L(x1,x2,,xn;θ)=ni=1p(xi;θ),θΘ

这一概率随 θ 的取值而变化,它是 θ 的函数,L(θ) 称为样本的似然函数(注意,这里 x1,x2,,xn 是已知的样本值,即已发生的时间,它是都是常数)。

关于最大似然估计法,我们有以下的直观想法:现在已经取到样本值 x1,x2,,xn 了,这表明取到这一样本值得概率 L(θ) 比较大。我们当然不会考虑那些不能使样本 x1,x2,,xn 出现的 θΘ 作为 θ 的估计,再者,如果已知当 θ=θ0Θ 时使 L(θ) 取最大值,而 Θ 中的其他 θ 的值使 L(θ) 取很小值,我们自然认为取 θ0 作为未知参数 θ 的估计值,较为合理。由费希尔(R.A.Fisher)引进的最大似然估计法,就是固定样本观测值 x1,x2,,xn,在 θ 取值的可能范围 Θ 内挑选使似然函数 L(θ)=L(x1,x2,,xn;θ) 达到最大的参数值 ˆθ ,作为参数 θ 的估计值。即取 ˆθ 使: L(θ)=L(x1,x2,,xn;ˆθ)=maxθΘL(x1,x2,,xn;θ)

这样得到的 ˆθ 与样本值 x1,x2,,xn 有关,常记为 ˆθ(x1,x2,,xn) ,称为参数 θ 的最大似然估计值,而相应的统计量 ˆθ(X1,X2,,Xn) 称为参数 θ 的最大似然估计量ˆθ=argmaxθΘL(θ)=argmaxθΘni=1p(xi;θ)

连续型随机变量

总体 X 属于连续型,其概率密度 f(x;θ)θΘ 的形式已知,θ 为待估参数,Θ 是 θ 可能取值的范围。设 X1,X2,,Xn 是来自 X 的样本,则 X1,X2,,Xn 的联合密度为: ni=1f(xi,θ)

设 x1,x2,,xn 是相应于样本 X1,X2,,Xn 的一个样本值,则随机点 (X1,X2,,Xn) 落在点 (x1,x2,,xn) 的邻域(边长分别为 dx1,dx2,,dxn 的 n 维立方体)内的概率近似地为: ni=1f(xi;θ)dxi
其取值随 θ 的取值而变化。与离散型的情况一样,我们取 θ 的估计值 ˆθ 使概率(6)到最大值,但因子 ni=1dxi 不随 θ 而变,故只需考虑函数: L(θ)=L(x1,x2,,xn;θ)=ni=1f(xi;θ)
的最大值。这里 L(θ) 称为样本的似然函数。若 L(x1,x2,,xn;ˆθ)=maxθΘL(x1,x2,,xn;θ)
则称 ˆθ(x1,x2,,xn) 为 θ 的最大似然估计值,称 ˆθ(X1,X2,,Xn) 为 θ 的最大似然估计l量ˆθ=argmaxθΘL(θ)=argmaxθΘni=1f(xi;θ)

对数似然方程

由上述分析,确定最大似然估计量的问题就归结为微分学中求最大值的问题了。 在很多情形下,p(x;θ) 和 f(x;θ) 关于 θ 可微,这时 ˆθ 常可从方程: ddθL(θ)=0

解得。又因 L(θ) 与 lnL(θ) 在同一 θ 处取到极值,因此,θ 的最大似然估计 θ 也可以从方程: ddθlnL(θ)=0
求得,而且从方程(11)求解往往比较方便。方程(11)称为对数似然方程

ˆθ=argmaxθΘlnL(θ)

多未知参数的似然估计

最大似然估计法也适用于分布中含有多个未知参数 θ1,θ2,,θk 的情况。这时,似然函数 L 是这些未知参数的函数。分别令: θiL(θ)=0,i=1,2,,k

或者 θilnL(θ)=0,i=1,2,,k
解上述由 k 个方程组成的方程组,即可得到各未知参数 θi(i=1,2,,k) 的最大似然估计值 ˆθi。方程组(13)称为对数似然方程组

举例

例题一

设 Xb(1,p)X1,X2,,Xn 是来自 X 的一个样本,试求参数 p 的最大似然估计。

: 设 x1,x2,,xn 是相应于样本 X1,X2,,Xn 的一个样本值。 X 的分布律为: P{X=x}=px(1p)1x,x=0,1

故似然函数为: L(p)=ni=1pxi(1p)1xi=pni=1 xi (1p)nni=1 xi
lnL(p)=(ni=1xi)lnp+(nni=1xi)ln(1p)
ddplnL(p)=ni=1xipnni=1xi1p=0
解得 p 的最大似然估计值: ˆp=1n ni=1xi=ˉx
p 的最大似然估计量为: ˆp=1n ni=1Xi=ˉX

小结

最大似然估计法所求的解只是估计值,只有在样本数趋于无限多的时候,它才会接近于真实值。 求解最大似然估计量 ˆθ 的一般步骤:

  • 根据概率分布写出似然函数;
  • 对似然函数取对数,并整理;
  • 对对数似然函数中所有待估计参数 θi 求(偏)导数,并令倒数为零;
  • 求解似然方程(组);