统计 - 估计
点估计是 总体参数 最可能的值。
置信区间表达了对估计的总体参数的不确定性。
点估计
点估计是从 样本 计算得出的。
点估计取决于数据类型
- 分类数据:出现次数除以样本大小。
- 数值数据:样本的 均值(平均值)。
一个例子可以是
丹麦人口平均身高的点估计为 180 厘米。
估计总是有 不确定性 的。这种不确定性可以用一个 置信区间 来表达。
置信区间
置信区间由一个 下界 和一个 上界 定义。
这为我们提供了一个真实参数可能在的数值范围。
例如,
丹麦人口的平均身高在 170 厘米到 190 厘米之间。
这里,170 厘米是下界,190 厘米是上界。
置信区间的下界和上界基于 置信水平。
置信水平
置信水平可以用百分比或小数表示,最常用的有
- 90% (0.90)
- 95% (0.95)
- 99% (0.99)
置信水平越高,区间越大。
例如,丹麦人口平均身高的置信区间可能是
90% 置信水平:在 175 厘米到 185 厘米之间。
95% 置信水平:在 170 厘米到 190 厘米之间。
99% 置信水平:在 160 厘米到 200 厘米之间。
我们将此置信水平与概率分布一起使用,以确定 误差幅度 有多大。
误差幅度
误差幅度是点估计与下界和上界之间的距离。
误差幅度基于置信水平和我们从样本中获得的数据。
例如,如果丹麦人口平均身高的点估计是 180 厘米
5 厘米的误差幅度:在 175 厘米到 185 厘米之间。
10 厘米的误差幅度:在 170 厘米到 190 厘米之间。
20 厘米的误差幅度:在 160 厘米到 200 厘米之间。
计算置信区间的步骤
以下步骤用于计算置信区间
- 检查条件
- 找到点估计
- 确定置信水平
- 计算误差范围
- 计算置信区间
一个 条件 是样本是从总体中 随机选择 的。
其他条件取决于你要计算置信区间的参数类型。
通常估计的参数有
- 比例(用于定性数据)
- 均值(用于数值数据)
你将在接下来的页面中学习这两种类型的步骤。