统计学 - 正态分布
正态分布是统计学中一个重要的概率分布。
现实世界中许多数据都是正态分布的。
正态分布
正态分布由均值 (\(\mu\)) 和标准差 (\(\sigma\)) 描述。
正态分布通常被称为“钟形曲线”,因为它形状像钟形。
正态分布曲线下的面积代表数据的概率。
整个曲线下的面积等于 1 或 100%。
这是一张正态分布图,显示了标准差 (\(\sigma\)) 之间的概率。
- 大约 68.3% 的数据位于平均值的 1 个标准差内(从 μ-1σ 到 μ+1σ)。
- 大约 95.5% 的数据位于平均值的 2 个标准差内(从 μ-2σ 到 μ+2σ)。
- 大约 99.7% 的数据位于平均值的 3 个标准差内(从 μ-3σ 到 μ+3σ)。
注意: 正态分布的概率只能计算区间(两个值之间)。
不同的均值和标准差
均值描述了正态分布的中心位置。
这是一张图,显示了三个具有**相同**标准差但均值不同的正态分布。
标准差描述了正态分布的离散程度。
这是一张图,显示了三个具有**相同**均值但标准差不同的正态分布。
紫色曲线具有最大的标准差,黑色曲线具有最小的标准差。
每条曲线下的面积仍然是 1 或 100%。
一个正态分布数据的真实数据示例
现实世界中的数据通常是正态分布的。
这是一张诺贝尔奖获得者在获奖时年龄的直方图。
绘制在直方图顶部的正态分布是基于真实数据的总体均值 (\(\mu\)) 和标准差 (\(\sigma\))。
我们可以看到,直方图接近正态分布。
现实世界中可以正态分布的变量示例
- 考试成绩
- 身高
- 出生体重
概率分布
概率分布是计算随机变量结果概率的函数。
随机变量的典型示例是抛硬币和掷骰子。
这是一张图,显示了随着抛硬币次数增加,结果(正面或反面)和预期值的变化。
抛硬币的预期值是抛硬币的概率分布。
请注意,随着抛硬币次数增加,随机抛硬币的结果越来越接近预期值(50%)。
同样,这是一张图,显示了随着掷骰子次数增加,结果(从 1 到 6)和预期值的变化。
再次注意,随着掷骰子次数增加,随机掷骰子的结果越来越接近预期值(1/6,或 16.666%)。
当随机变量是掷骰子**总和**时,结果和预期值的形状会发生变化。
这种形状变化是由于获得接近中间总和的方法比获得较小或较大总和的方法更多。
随着我们不断增加掷骰子求和的次数,结果和预期值的形状越来越像正态分布。
现实世界中许多变量遵循类似的模式,并自然形成正态分布。
正态分布变量可以用众所周知的技术进行分析。
您将在接下来的页面中了解一些最常见和最实用的技术。