最大似然估计-


  1. 定义
  2. 你说的可能是“最大似然估计(Maximum Likelihood Estimation,MLE)”。最大似然估计是一种在统计学中广泛使用的参数估计方法。给定一个概率模型(如正态分布、伯努利分布等)和一组观测数据,其目标是找到模型参数的值,使得观测数据出现的概率(即似然函数)最大。
  3. 从直观上理解,假设我们有一个包含(n)个独立同分布(i.i.d)样本(x_1,x_2,\cdots,x_n)的数据集,这些样本来自某个概率分布(f(x|\theta)),其中(\theta)是待估计的参数(可以是一个或多个参数)。似然函数(L(\theta|x_1,x_2,\cdots,x_n))定义为在给定参数(\theta)下观测到这些样本的概率,即(L(\theta|x_1,x_2,\cdots,x_n)=\prod_{i = 1}^{n}f(x_i|\theta))。最大似然估计就是要找到(\hat{\theta}),使得(L(\hat{\theta}|x_1,x_2,\cdots,x_n)\geq L(\theta|x_1,x_2,\cdots,x_n))对所有的(\theta)成立。

  4. 计算步骤(以正态分布为例)

  5. 假设样本(x_1,x_2,\cdots,x_n)服从正态分布(N(\mu,\sigma^2)),其中(\mu)是均值,(\sigma^2)是方差,这两个参数是我们要估计的。正态分布的概率密度函数为(f(x|\mu,\sigma^2)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x - \mu)^2}{2\sigma^2}})。
  6. 似然函数为(L(\mu,\sigma^2|x_1,x_2,\cdots,x_n)=\prod_{i = 1}^{n}\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x_i - \mu)^2}{2\sigma^2}})。为了方便计算,通常对似然函数取对数,得到对数似然函数(\ln L(\mu,\sigma^2|x_1,x_2,\cdots,x_n)=-\frac{n}{2}\ln(2\pi)-\frac{n}{2}\ln(\sigma^2)-\frac{1}{2\sigma^2}\sum_{i = 1}^{n}(x_i - \mu)^2)。
  7. 然后分别对(\mu)和(\sigma^2)求偏导数,并令偏导数等于0。对(\mu)求偏导可得(\frac{\partial\ln L}{\partial\mu}=\frac{1}{\sigma^2}\sum_{i = 1}^{n}(x_i - \mu)=0),解得(\hat{\mu}=\frac{1}{n}\sum_{i = 1}^{n}x_i)(样本均值)。对(\sigma^2)求偏导并求解可以得到(\hat{\sigma}^2=\frac{1}{n}\sum_{i = 1}^{n}(x_i - \hat{\mu})^2)(样本方差)。

  8. 性质与优点

  9. 渐近无偏性:在一定条件下,随着样本数量(n)的增加,最大似然估计量是渐近无偏的。这意味着当样本足够多时,估计量的期望值趋近于真实参数值。例如,对于正态分布参数的最大似然估计,当(n\to\infty)时,估计的均值和方差会越来越接近真实的均值和方差。
  10. 渐近有效性:最大似然估计量在渐近意义下具有最小方差。也就是说,在样本量足够大时,与其他无偏估计量相比,最大似然估计量的方差最小,这使得它在估计参数时更加精确。
  11. 一致性:当样本量趋于无穷时,最大似然估计量依概率收敛于真实参数。这保证了随着数据的积累,最大似然估计能够越来越准确地估计参数。

  12. 应用场景

  13. 机器学习模型参数估计
    • 在许多机器学习算法中,如逻辑回归、朴素贝叶斯等,都需要估计模型参数。以逻辑回归为例,它用于二分类问题,模型假设样本(x)属于类别1的概率为(P(y = 1|x)=\frac{1}{1 + e^{-(\beta_0+\beta_1x_1+\cdots+\beta_px_p)}}),其中(\beta_0,\beta_1,\cdots,\beta_p)是待估计的参数。通过最大似然估计,可以根据训练数据找到这些参数的最优估计值,使得模型能够最好地拟合数据,从而对新的数据进行准确的分类。
  14. 信号处理与通信工程
    • 在信号处理中,当接收到一个带有噪声的信号时,假设信号和噪声的概率分布模型,通过最大似然估计可以估计信号的参数。例如,在数字通信中,接收端需要估计发送端发送的信号幅度、相位等参数,最大似然估计可以根据接收到的信号样本找到这些参数的最佳估计值,从而提高信号恢复的准确性。