数据科学 - 统计学方差
方差
方差是另一个表示值分散程度的数字。
事实上,如果你取方差的平方根,你就会得到标准差。或者反过来说,如果你将标准差自乘,你就会得到方差!
我们首先使用包含 10 个观测值的数据集来举例说明如何计算方差
时长 | 平均脉搏 | 最大脉搏 | 卡路里燃烧 | 工作时长 | 睡眠时长 |
---|---|---|---|---|---|
30 | 80 | 120 | 240 | 10 | 7 |
30 | 85 | 120 | 250 | 10 | 7 |
45 | 90 | 130 | 260 | 8 | 7 |
45 | 95 | 130 | 270 | 8 | 7 |
45 | 100 | 140 | 280 | 0 | 7 |
60 | 105 | 140 | 290 | 7 | 8 |
60 | 110 | 145 | 300 | 7 | 8 |
60 | 115 | 145 | 310 | 8 | 8 |
75 | 120 | 150 | 320 | 0 | 8 |
75 | 125 | 150 | 330 | 8 | 8 |
提示:方差通常用符号 Sigma Square 表示:σ^2
计算方差的步骤 1:求平均值
我们想要找到平均脉搏的方差。
1. 求平均值
(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5
平均值为 102.5
步骤 2:对于每个值 - 求与平均值的差
2. 求每个值与平均值的差
80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 =
-7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 -
102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5
步骤 3:对于每个差值 - 求平方值
3. 求每个差值的平方值
(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 =
56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25
注意:我们必须对值进行平方才能得到总的离散程度。
步骤 4:方差是这些平方值的平均数
4. 对平方值求和并求平均值
(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 +
506.25) / 10 = 206.25
方差为 206.25。
使用 Python 查找 health_data 的方差
我们可以使用 Numpy 中的 var()
函数来查找方差(记住我们现在使用包含 10 个观测值的第一组数据)
输出
使用 Python 查找完整数据集的方差
在这里,我们计算完整数据集每一列的方差
输出