统计 - 标准差
标准差是使用最广泛的变异测量方法,它描述了数据的离散程度。
标准差
标准差 (σ) 衡量的是一个“典型”观测值距离数据平均值 (μ) 的程度。
标准差在许多统计方法中都非常重要。
以下是截至 2020 年所有 934 位诺贝尔奖获得者年龄的直方图,显示了**标准差**
直方图中的每条虚线都代表一个标准差的增量。
如果数据呈**正态分布:**
- 大约 68.3% 的数据位于平均值的 1 个标准差内 (从 μ-1σ 到 μ+1σ)
- 大约 95.5% 的数据位于平均值的 2 个标准差内 (从 μ-2σ 到 μ+2σ)
- 大约 99.7% 的数据位于平均值的 3 个标准差内 (从 μ-3σ 到 μ+3σ)
**注意:****正态**分布呈“钟形”,并在两侧对称地展开。
计算标准差
您可以计算**总体**和**样本**的标准差。
公式**几乎**相同,使用不同的符号来表示标准差 (σ) 和**样本**标准差 (s)。
计算**标准差** (σ) 使用以下公式
\(\displaystyle \sigma = \sqrt{\frac{\sum (x_{i}-\mu)^2}{n}}\)
计算**样本标准差** (s) 使用以下公式
\(\displaystyle s = \sqrt{\frac{\sum (x_{i}-\bar{x})^2}{n-1}}\)
\(n\) 是观测值的总数。
\(\sum \) 是将一列数字加起来的符号。
\(x_{i}\) 是数据中的值列表:\(x_{1}, x_{2}, x_{3}, \ldots \)
\(\mu\) 是总体均值,\(\bar{x}\) 是样本均值(平均值)。
\( (x_{i} - \mu ) \) 和 \( (x_{i} - \bar{x} ) \) 是观测值 (\(x_{i}\)) 和均值之间的差值。
每个差值都被平方并加在一起。
然后将总和除以 \(n\) 或 (\( n - 1 \)),最后求平方根。
使用这 4 个示例值来计算**总体标准差**
4, 11, 7, 14
我们必须先找到均值
\(\displaystyle \mu = \frac{\sum x_{i}}{n} = \frac{4 + 11 + 7 + 14}{4} = \frac{36}{4} = \underline{9} \)
然后找到每个值与均值 \( (x_{i}- \mu)\) 之间的差值
- \( 4-9 \; \:= -5 \)
- \( 11-9 = 2 \)
- \( 7-9 \; \:= -2 \)
- \( 14-9 = 5 \)
然后将每个值平方,或乘以自身 \( ( x_{i}- \mu )^2\)
- \( (-5)^2 = (-5)(-5) = 25 \)
- \( 2^2 \; \; \; \; \; \, = 2*2 \; \; \; \; \; \; \; \: = 4 \)
- \( (-2)^2 = (-2)(-2) = 4 \)
- \( 5^2 \; \; \; \; \; \, = 5*5 \; \; \; \; \; \; \; \: = 25 \)
然后将所有平方差加在一起 \( \sum (x_{i} -\mu )^2\)
\( 25 + 4 + 4 + 25 = 58\)
然后将总和除以观测值的总数 \( n \)
\( \displaystyle \frac{58}{4} = 14.5\)
最后,我们求这个数字的平方根
\( \sqrt{14.5} \approx \underline{3.81} \)
因此,示例值的标准差约为:\(3.81 \)
使用编程计算标准差
许多编程语言都可以轻松计算标准差。
对于更大的数据集,使用软件和编程来计算统计数据更为常见,因为手动计算会变得很困难。
总体标准差
示例
使用 Python 中的 NumPy 库 std()
方法来查找值 4,11,7,14 的标准差
import numpy
values = [4,11,7,14]
x = numpy.std(values)
print(x)
自己尝试 »
示例
样本标准差
示例
使用 Python 中的 NumPy 库 std()
方法来查找值 4,11,7,14 的**样本**标准差
import numpy
values = [4,11,7,14]
x = numpy.std(values, ddof=1)
print(x)
自己尝试 »
示例
统计学符号参考
符号 | 描述 |
---|---|
\( \sigma \) | 总体标准差。读作“西格玛”。 |
\( s \) | 样本标准差。 |
\( \mu \) | 总体均值。读作“缪”。 |
\( \bar{x} \) | 样本均值。读作“x 横”。 |
\( \sum \) | 求和运算符,“大西格玛”。 |
\( x \) | 我们正在计算平均值的变量“x”。 |
\( i \) | 变量“x”的索引“i”。它标识每个变量观测值。 |
\( n \) | 观测值的数目。 |