数据科学 - 回归表:P 值
回归表中的“系数统计”部分

现在,我们要测试线性回归函数中的系数是否对因变量(Calorie_Burnage)有显著影响。
这意味着我们要证明,使用统计检验,Average_Pulse 和 Calorie_Burnage 之间存在关系。
系数的统计量有四个组成部分:
- std err 代表标准误差 (Standard Error)
- t 是系数的“t 值”
- P>|t| 称为“P 值”
- [0.025 0.975] 代表系数的置信区间
在本模块中,我们将重点理解“P 值”。
P 值
P 值是一个统计数字,用于判断 Average_Pulse 和 Calorie_Burnage 之间是否存在关系。
我们测试系数的真实值是否为零(无关系)。对此的统计检验称为假设检验。
- 低 P 值(< 0.05)表示系数很可能不等于零。
- 高 P 值(> 0.05)表示我们无法得出解释变量影响因变量的结论(此处:Average_Pulse 是否影响 Calorie_Burnage)。
- 高 P 值也称为不显著 P 值。
假设检验
假设检验是一种统计程序,用于测试您的结果是否有效。
在我们的例子中,我们正在测试 Average_Pulse 和截距的真实系数是否等于零。
假设检验有两个陈述。零假设和备择假设。
- 零假设可以简写为 H0
- 备择假设可以简写为 HA
数学表达式为:
H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept = 0
HA: Intercept ≠ 0
符号 ≠ 表示“不等于”
假设检验和 P 值
零假设可以被拒绝,也可以不被拒绝。
如果我们拒绝零假设,我们得出结论:Average_Pulse 和 Calorie_Burnage 之间存在关系。P 值用于此结论。
P 值的常见阈值是 0.05。
注意: P 值为 0.05 意味着我们有 5% 的几率错误地拒绝零假设。这意味着我们接受 5% 的几率我们可能错误地得出了存在关系的结论。
如果 P 值低于 0.05,我们可以拒绝零假设,并得出结论:变量之间存在关系。
然而,Average_Pulse 的 P 值为 0.824。因此,我们无法得出 Average_Pulse 和 Calorie_Burnage 之间存在关系的结论。
这意味着 Average_Pulse 的真实系数为零的可能性为 82.4%。
截距用于更精确地调整回归函数的预测能力。因此,解释截距的 P 值并不常见。