统计学 - 变异
变异是衡量数据围绕数据中心分布范围的指标。
数据的变异
变异性度量是衡量观测值(数据点)之间彼此相距多远的统计量。
有不同的变异性度量。最常用的是
变异性度量与平均值(中心度量)相结合,可以很好地描绘数据的分布。
注意: 这些变异性度量只能用于数值数据。
范围
极差是数据中最小值和最大值之间的差。
极差是最简单的变异性度量。
以下是截至 2020 年所有 934 位诺贝尔奖获得者的年龄直方图,显示了极差
最年轻的获奖者是 17 岁,最年长的是 97 岁。诺贝尔奖获得者年龄的极差为 80 岁。
四分位数和百分位数
四分位数和百分位数是将数据中相等数量的值分成几部分的方法。
四分位数是将数据分成四个相等部分的数值。
百分位数是将数据分成 100 个相等部分的数值。
以下是截至 2020 年所有 934 位诺贝尔奖获得者的年龄直方图,显示了四分位数
四分位数 (Q0,Q1,Q2,Q3,Q4) 是将每个四分之一部分分隔开的数值。
Q0 和 Q1 之间是数据中最低的 25% 的值。Q1 和 Q2 之间是接下来的 25%。依此类推。
- Q0 是数据中的最小值。
- Q2 是中间值(中位数)。
- Q4 是数据中的最大值。
四分位距
四分位距是第一和第三四分位数(Q1 和 Q3)之间的差。
数据的“中间一半”位于第一和第三四分位数之间。
以下是截至 2020 年所有 934 位诺贝尔奖获得者的年龄直方图,显示了四分位距 (IQR)
在此,中间一半的年龄在 51 岁到 69 岁之间。诺贝尔奖获得者年龄的四分位距为 18 岁。
标准差
标准差是最常用的变异性度量。
标准差 (σ) 衡量“典型”观测值与数据平均值 (μ) 的距离。
标准差对于许多统计方法都很重要。
以下是截至 2020 年所有 934 位诺贝尔奖获得者的年龄直方图,显示了标准差
注意: 在一个标准差 (σ) 内的值被认为是典型的。
超出三个标准差的值被认为是异常值。