岭回归


  1. 定义
  2. Tikhonov正则化(Tikhonov Regularization)也被称为岭回归(Ridge Regression),是一种用于解决线性回归中可能出现的过拟合问题的正则化方法。给定一个线性回归模型(y = X\beta+\epsilon),其中(y)是观测值向量((n\times1)),(X)是设计矩阵((n\times p)),(\beta)是系数向量((p\times1)),(\epsilon)是误差向量。传统的最小二乘估计是求(\hat{\beta}=(X^{T}X)^{-1}X^{T}y),使得残差平方和(\left|y - X\beta\right|^{2})最小。
  3. Tikhonov正则化则是在最小化残差平方和的基础上,添加一个对系数(\beta)的惩罚项。其目标函数变为(\left|y - X\beta\right|^{2}+\lambda\left|\beta\right|^{2}),其中(\lambda\geqslant0)是正则化参数。这个正则化参数控制着对系数大小惩罚的程度。
  4. 作用原理
  5. 防止过拟合:在普通的最小二乘回归中,如果特征数量(p)接近或大于样本数量(n),或者特征之间存在高度相关性,模型很容易出现过拟合。Tikhonov正则化通过对系数大小进行惩罚,使得系数不会变得过大。例如,在一个有很多变量的经济预测模型中,如果没有正则化,模型可能会过度拟合历史数据,导致对未来数据的预测不准确。而Tikhonov正则化可以让模型更稳健,减少对噪声的敏感程度。
  6. 稳定系数估计:当(X^{T}X)接近奇异(即行列式接近0)时,普通最小二乘估计的方差会变得很大。Tikhonov正则化可以改善这种情况。例如,在一些信号处理问题中,数据矩阵可能存在近似线性相关的列,这会导致系数估计的不稳定性。加入Tikhonov正则化后,系数的估计会更加稳定。
  7. 与权重衰退的关系
  8. Tikhonov正则化和权重衰退在概念上有相似之处。在神经网络的权重衰退中,目标是防止网络权重过大而导致过拟合,通过在损失函数中添加惩罚项(\frac{\lambda}{2}\sum_{i}w_{i}^{2})((w_{i})是神经网络的权重)。Tikhonov正则化在某种程度上也起到类似的作用,它在回归模型的目标函数中添加对系数向量(\beta)的惩罚项(\lambda\left|\beta\right|^{2}),都是通过限制参数的大小来达到正则化的目的。
  9. 应用场景
  10. 线性回归问题:在预测房屋价格的模型中,假设房屋价格(y)与房屋面积(x_{1})、房间数量(x_{2})等因素有关,建立线性回归模型(y=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+\cdots+\epsilon)。如果有大量的潜在因素(特征),或者特征之间有一定的相关性,使用Tikhonov正则化可以得到更合理的系数估计,提高模型对新房屋价格预测的准确性。
  11. 逆问题求解:在一些物理和工程领域,如从测量数据中重建物体形状(例如医学成像中的断层扫描),需要求解逆问题。Tikhonov正则化可以帮助稳定解,克服测量数据中的噪声和模型不确定性带来的问题。例如,在计算机断层扫描(CT)中,从投影数据重建人体组织的密度分布时,Tikhonov正则化可以减少重建结果中的伪影。
  12. 正则化参数(\lambda)的选择
  13. 正则化参数(\lambda)的选择对于模型性能至关重要。如果(\lambda = 0),Tikhonov正则化就退化为普通的最小二乘回归,没有正则化效果。如果(\lambda)很大,系数(\beta)会被过度惩罚,导致模型出现欠拟合。通常可以使用交叉验证的方法来选择合适的(\lambda)。例如,将数据集划分为训练集、验证集和测试集,在训练集上用不同的(\lambda)值训练模型,在验证集上评估模型性能,选择使验证集误差最小的(\lambda)值,最后在测试集上评估最终模型的性能。