统计学 - 变异
变异是衡量数据围绕数据中心点分散程度的指标。
数据的变异
变异指标是统计数据中观测值(数据点)之间距离远近的指标。
存在不同的变异指标。最常用的指标包括
变异指标与平均值(中心指标)结合,可以很好地描述数据的分布。
注意: 这些变异指标只能针对数值数据计算。
范围
范围是数据中最小值和最大值之间的差值。
范围是最简单的变异指标。
以下是截至2020年所有934位诺贝尔奖得主年龄的直方图,展示了范围
最年轻的获奖者为17岁,最年长的获奖者为97岁。因此,诺贝尔奖得主年龄范围为80岁。
四分位数与百分位数
四分位数和百分位数是将数据中相等数量的值分成几部分的方法。
四分位数是将数据分成四个相等部分的值。
百分位数是将数据分成100个相等部分的值。
以下是截至2020年所有934位诺贝尔奖得主年龄的直方图,展示了四分位数
四分位数(Q0,Q1,Q2,Q3,Q4)是将数据分成每个四分位的值。
Q0和Q1之间是数据中25%的最小值。Q1和Q2之间是接下来的25%。依此类推。
- Q0是数据中的最小值。
- Q2是中间值(中位数)。
- Q4是数据中的最大值。
四分位距
四分位距是第一四分位数和第三四分位数(Q1和Q3)之间的差值。
数据中的“中间一半”位于第一四分位数和第三四分位数之间。
以下是截至2020年所有934位诺贝尔奖得主年龄的直方图,展示了四分位距(IQR)
这里,中间一半位于51岁至69岁之间。因此,诺贝尔奖得主四分位距为18岁。
标准差
标准差是最常用的变异指标。
标准差 (σ) 衡量“典型”观测值与数据平均值 (μ) 之间的距离。
标准差对于许多统计方法都很重要。
以下是截至2020年所有934位诺贝尔奖得主年龄的直方图,展示了标准差
注意: 位于一个标准差 (σ) 内的值被认为是典型的。
位于三个标准差之外的值被认为是异常值。