统计 - 描述性统计
描述性统计使我们能够在不详细查看所有数据的情况下深入了解数据。
描述数据需要关注的关键特征
快速了解数据分布情况是统计方法中的重要一步。
我们计算关于数据的关键数值,这些数值告诉我们数据的分布情况。我们还绘制图形,以可视化的方式展示数据分布。
数据的关键特征
- 数据的中心在哪里?(位置)
- 数据有多少变异性?(尺度)
- 数据的形状是怎样的?(形状)
这些可以通过汇总统计量(数值)来描述。
数据的中心
数据的中心是指大多数值集中的位置。
不同类型的平均值,如均值、中位数和众数,是中心的度量。
注意:中心的度量也称为位置参数,因为它们告诉我们数据在数轴上的“位置”。
数据的变异性
数据的变异性是指数据围绕中心分散的程度。
标准差、极差和四分位数等统计量是变异性的度量。
注意:变异性的度量也称为尺度参数。
数据的形状
数据的形状可以指数据在中心两侧的聚集方式。
偏度等统计量描述了中心右侧或左侧哪个更大。偏度是形状参数的一种。
频率表
一种典型的展示数据的方式是使用频率表。
频率表将数据计数并排序到一个表中。通常,数据需要被排序成区间。
频率表通常是制作图表以可视化呈现数据的基础。
数据可视化
不同类型的图表用于不同的数据类型。例如:
- 饼图用于定性数据
- 直方图用于定量数据
- 散点图用于双变量数据
图表通常与数值汇总统计量密切相关。
例如,箱线图显示四分位数的位置。
四分位数还告诉我们最小值和最大值、极差、四分位距和中位数的位置。