Ridge Regression
ridge regression, Tikhonov regularization (脊回归 岭回归 吉洪诺夫正则化)
共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法
岭回归是对最小二乘回归的一种补充,它损失了无偏性,来换取高的数值稳定性,从而得到较高的计算精度
一般线性回归遇到的问题
在处理复杂的数据的回归问题时,普通的线性回归会遇到一些问题,主要表现在:
预测精度:这里要处理好这样一对为题,即样本的数量 n和特征的数量p
bias and variance tradeoff
方差指的是对于同一数据集同一模型多次重复building后 预测值之间的差异波动,而偏差指的是模型预测值和数据真值之间的差异。我们需要找到方差和偏差的折中
二、岭回归的概念 在进行特征选择时,一般有三种方式:
- 子集选择
- 收缩方式(Shrinkage method),又称为正则化(Regularization)。主要包括岭回归个lasso回归。
维数缩减
岭回归(Ridge Regression)是在平方误差的基础上增加正则项 \(\sum_{i=1}^{n}\left(y_i-\sum_{j=0}^{p}w_{j}x_{ij}\right)^{2}+\lambda\sum_{j=0}^{p}w^2_{j}\)
通过确定的值可以使得在方差和偏差之间达到平衡:随着的增大,模型方差减小而偏差增大 对求导,结果为
\(2X^T\left(Y-XW\right)-2\lambda W\)
令其为0,可求得的值:
\(\hat{w}=\left(X^TX+\lambda I\right)^{-1}X^TY\)
shrinkage
today HULIXIA nice talking!