数据科学 - 回归表:P值
回归表中“系数统计部分”
现在,我们想要检验线性回归函数中的系数是否对因变量(Calorie_Burnage)有显著影响。
这意味着我们想要使用统计检验来证明平均脉搏(Average_Pulse)和卡路里燃烧(Calorie_Burnage)之间存在关系。
有四个组成部分解释了系数的统计数据
- std err 代表标准误差
- t 是系数的“t值”
- P>|t| 称为“P值”
- [0.025 0.975] 表示系数的置信区间
在本模块中,我们将重点关注理解“P值”。
P值
P值是一个统计数字,用于得出平均脉搏(Average_Pulse)和卡路里燃烧(Calorie_Burnage)之间是否存在关系的结论。
我们检验系数的真实值是否等于零(无关系)。对此进行的统计检验称为假设检验。
- P值较低(< 0.05)意味着系数可能不等于零。
- P值较高(> 0.05)意味着我们不能得出解释变量影响因变量的结论(此处:平均脉搏是否影响卡路里燃烧)。
- P值较高也称为不显著的P值。
假设检验
假设检验是一种统计程序,用于检验结果是否有效。
在我们的示例中,我们正在检验平均脉搏(Average_Pulse)和截距的真实系数是否等于零。
假设检验有两个陈述。原假设和备择假设。
- 原假设可以简写为H0
- 备择假设可以简写为HA
数学表达
H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept = 0
HA: Intercept ≠ 0
符号≠表示“不等于”
假设检验和P值
原假设可以被拒绝或不被拒绝。
如果我们拒绝原假设,我们得出结论,平均脉搏(Average_Pulse)和卡路里燃烧(Calorie_Burnage)之间存在关系。P值用于得出此结论。
P值的常用阈值为0.05。
注意:P值为0.05表示在5%的时间里,我们将错误地拒绝原假设。这意味着我们接受在5%的时间里,我们可能会错误地得出存在关系的结论。
如果P值低于0.05,我们可以拒绝原假设并得出结论,变量之间存在关系。
但是,平均脉搏的P值为0.824。因此,我们无法得出平均脉搏(Average_Pulse)和卡路里燃烧(Calorie_Burnage)之间存在关系的结论。
这意味着平均脉搏的真实系数为零的概率为82.4%。
截距用于调整回归函数更精确地预测的能力。因此,解释截距的P值并不常见。