1. 什么是 R²?

R² 的本质是衡量 回归模型对数据的拟合程度,即模型能够解释因变量(目标变量)变异的比例。其取值范围通常在 0 到 1 之间,具体含义如下:


  • R²=1:模型完美拟合数据,所有数据点都被模型准确预测(理想情况,但几乎不可能)。
  • R2=0 R²=0:模型的预测能力与直接使用均值预测的效果一样,说明模型没有学习到有效信息。
  • R2<0 R²<0:模型比简单的均值预测还要差,可能是模型选择不当或过拟合/欠拟合所致。

简单来说,R² 越接近 1,说明模型拟合效果越好,但需要注意的是,R² 高并不一定意味着模型真的“优秀”,后面我们会详细讨论它的局限性。

2. R² 的计算公式

R² 的数学定义如下:

R2=1−∑(yi−y^i)2∑(yi−y¯)2

其中:

  • yi :真实值(实际观测数据)
  • y^i :模型预测值
  • y¯ :真实值的均值,即: y¯=1n∑yi
  • 残差平方和(RSS,Residual Sum of Squares): RSS=∑(yi−y^i)2 反映了模型预测误差的总量。
  • 总平方和(TSS,Total Sum of Squares): TSS=∑(yi−y¯)2 反映了数据的总体变异性。

R² 其实是衡量 RSS 在 TSS 中所占的比例:

  • 如果 RSS 很小(模型预测误差小),R² 就接近 1,说明模型很好地拟合了数据。
  • 如果 RSS 很大(接近 TSS),R² 就接近 0,说明模型几乎没有学习到有用信息。