决定系数 R² 的理解

2025-04-09 乐帮网编程技术

1. 什么是 R²？

R² 的本质是衡量 回归模型对数据的拟合程度，即模型能够解释因变量（目标变量）变异的比例。其取值范围通常在 0 到 1 之间，具体含义如下：

$R^{2} = 1$
R²=1：模型完美拟合数据，所有数据点都被模型准确预测（理想情况，但几乎不可能）。
$R^{2} = 0$ R²=0：模型的预测能力与直接使用均值预测的效果一样，说明模型没有学习到有效信息。
$R^{2} < 0$ R²<0：模型比简单的均值预测还要差，可能是模型选择不当或过拟合/欠拟合所致。

简单来说，R² 越接近 1，说明模型拟合效果越好，但需要注意的是，R² 高并不一定意味着模型真的“优秀”，后面我们会详细讨论它的局限性。

2. R² 的计算公式

R² 的数学定义如下：

R2=1−∑(yi−y^i)2∑(yi−y¯)2

其中：

yi ：真实值（实际观测数据）
y^i ：模型预测值
y¯ ：真实值的均值，即： y¯=1n∑yi
残差平方和（RSS，Residual Sum of Squares）： RSS=∑(yi−y^i)2 反映了模型预测误差的总量。
总平方和（TSS，Total Sum of Squares）： TSS=∑(yi−y¯)2 反映了数据的总体变异性。

R² 其实是衡量 RSS 在 TSS 中所占的比例：

如果 RSS 很小（模型预测误差小），R² 就接近 1，说明模型很好地拟合了数据。
如果 RSS 很大（接近 TSS），R² 就接近 0，说明模型几乎没有学习到有用信息。

大数据模型

· 每日一诗 ·

庭院深深深几许？杨柳堆烟，帘幕无重数。玉勒雕鞍游冶处，楼高不见章台路。雨横风狂三月暮。门掩黄昏，无计留春住。泪眼问花花不语，乱红飞过秋千去。

— 欧阳修 · 蝶恋花

关注公众号

公众号二维码

投稿邮箱：1052839972@qq.com

请作者喝杯咖啡

微信打赏

这将是创作的最大动力

↑