数据科学 - 统计学相关矩阵
相关矩阵
矩阵是由按行和列排列的数字组成的数组。
相关矩阵只是一个表格,显示了变量之间的相关系数。
这里,变量在第一行和第一列表示。
上表使用了来自完整健康数据集的数据。
观察结果
- 我们观察到持续时间和卡路里燃烧之间密切相关,相关系数为0.89。这是有道理的,因为我们训练的时间越长,燃烧的卡路里就越多。
- 我们观察到平均脉搏和卡路里燃烧之间几乎不存在线性关系(相关系数为0.02)。
- 我们能否得出结论,平均脉搏不影响卡路里燃烧?不能。我们稍后会回来回答这个问题!
Python中的相关矩阵
我们可以使用Python中的corr()
函数创建相关矩阵。我们还使用round()
函数将输出四舍五入到两位小数。
输出
使用热图
我们可以使用热图来可视化变量之间的相关性。
相关系数越接近1,方块的颜色越绿。
相关系数越接近-1,方块的颜色越棕色。
使用Seaborn创建热图
我们可以使用Seaborn库创建相关性热图(Seaborn是基于matplotlib的可视化库)。
示例
import matplotlib.pyplot as plt
import seaborn as sns
correlation_full_health = full_health_data.corr()
axis_corr = sns.heatmap(
correlation_full_health,
vmin=-1, vmax=1, center=0,
cmap=sns.diverging_palette(50, 500, n=500),
square=True
)
plt.show()
自己动手试试 »
示例说明
- 导入库seaborn为sns。
- 使用full_health_data数据集。
- 使用sns.heatmap()告诉Python我们想要一个热图来可视化相关矩阵。
- 使用相关矩阵。定义热图的最大值和最小值。定义0为中心。
- 使用sns.diverging_palette定义颜色。n=500表示我们希望在同一色卡中使用500种颜色。
- square = True表示我们希望看到正方形。