数据科学 - 回归表:R 平方
R 平方
R 平方和调整后的 R 平方描述了线性回归模型对数据点的拟合程度。
R 平方值始终在 0 到 1 之间(0% 到 100%)。
- 较高的 R 平方值表示许多数据点接近线性回归函数线。
- 较低的 R 平方值表示线性回归函数线与数据拟合不好。
低 R 平方值 (0.00) 的可视化示例
我们的回归模型显示 R 平方值为零,这意味着线性回归函数线与数据拟合不好。
当我们将线性回归函数绘制在平均脉搏和卡路里燃烧的数据点上时,可以将其可视化。
高 R 平方值 (0.79) 的可视化示例
但是,如果我们绘制**持续时间**和**卡路里燃烧**,R 平方会增加。在这里,我们看到数据点接近线性回归函数线。
以下是 Python 中的代码
示例
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
full_health_data = pd.read_csv("data.csv", header=0, sep=",")
x = full_health_data["Duration"]
y = full_health_data ["Calorie_Burnage"]
slope, intercept, r, p, std_err = stats.linregress(x, y)
def myfunc(x)
return slope * x + intercept
mymodel = list(map(myfunc, x))
print(mymodel)
plt.scatter(x, y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0, xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")
plt.show()
自己尝试 »
总结 - 使用平均脉搏预测卡路里燃烧
我们如何总结以平均脉搏作为解释变量的线性回归函数?
- 系数为 0.3296,这意味着平均脉搏对卡路里燃烧的影响非常小。
- P 值较高 (0.824),这意味着我们无法得出平均脉搏与卡路里燃烧之间存在关系的结论。
- R 平方值为 0,这意味着线性回归函数线与数据拟合不好。