Menu
×
   ❮   
HTML CSS JAVASCRIPT SQL PYTHON JAVA PHP HOW TO W3.CSS C C++ C# BOOTSTRAP REACT MYSQL JQUERY EXCEL XML DJANGO NUMPY PANDAS NODEJS R TYPESCRIPT ANGULAR GIT POSTGRESQL MONGODB ASP AI GO KOTLIN SASS VUE DSA GEN AI SCIPY AWS CYBERSECURITY DATA SCIENCE
     ❯   

统计 - 标准差


标准差是使用最广泛的变异测量方法,它描述了数据的离散程度。


标准差

标准差 (σ) 衡量的是一个“典型”观测值距离数据平均值 (μ) 的程度。

标准差在许多统计方法中都非常重要。

以下是截至 2020 年所有 934 位诺贝尔奖获得者年龄的直方图,显示了**标准差**

Histogram of the age of Nobel Prize winners with interquartile range shown.

直方图中的每条虚线都代表一个标准差的增量。

如果数据呈**正态分布:**

  • 大约 68.3% 的数据位于平均值的 1 个标准差内 (从 μ-1σ 到 μ+1σ)
  • 大约 95.5% 的数据位于平均值的 2 个标准差内 (从 μ-2σ 到 μ+2σ)
  • 大约 99.7% 的数据位于平均值的 3 个标准差内 (从 μ-3σ 到 μ+3σ)

**注意:****正态**分布呈“钟形”,并在两侧对称地展开。


计算标准差

您可以计算**总体**和**样本**的标准差。

公式**几乎**相同,使用不同的符号来表示标准差 (σ) 和**样本**标准差 (s)。

计算**标准差** (σ) 使用以下公式

\(\displaystyle \sigma = \sqrt{\frac{\sum (x_{i}-\mu)^2}{n}}\)

计算**样本标准差** (s) 使用以下公式

\(\displaystyle s = \sqrt{\frac{\sum (x_{i}-\bar{x})^2}{n-1}}\)

\(n\) 是观测值的总数。

\(\sum \) 是将一列数字加起来的符号。

\(x_{i}\) 是数据中的值列表:\(x_{1}, x_{2}, x_{3}, \ldots \)

\(\mu\) 是总体均值,\(\bar{x}\) 是样本均值(平均值)。

\( (x_{i} - \mu ) \) 和 \( (x_{i} - \bar{x} ) \) 是观测值 (\(x_{i}\)) 和均值之间的差值。

每个差值都被平方并加在一起。

然后将总和除以 \(n\) 或 (\( n - 1 \)),最后求平方根。

使用这 4 个示例值来计算**总体标准差**

4, 11, 7, 14

我们必须先找到均值

\(\displaystyle \mu = \frac{\sum x_{i}}{n} = \frac{4 + 11 + 7 + 14}{4} = \frac{36}{4} = \underline{9} \)

然后找到每个值与均值 \( (x_{i}- \mu)\) 之间的差值

  • \( 4-9 \; \:= -5 \)
  • \( 11-9 = 2 \)
  • \( 7-9 \; \:= -2 \)
  • \( 14-9 = 5 \)

然后将每个值平方,或乘以自身 \( ( x_{i}- \mu )^2\)

  • \( (-5)^2 = (-5)(-5) = 25 \)
  • \( 2^2 \; \; \; \; \; \, = 2*2 \; \; \; \; \; \; \; \: = 4 \)
  • \( (-2)^2 = (-2)(-2) = 4 \)
  • \( 5^2 \; \; \; \; \; \, = 5*5 \; \; \; \; \; \; \; \: = 25 \)

然后将所有平方差加在一起 \( \sum (x_{i} -\mu )^2\)

\( 25 + 4 + 4 + 25 = 58\)

然后将总和除以观测值的总数 \( n \)

\( \displaystyle \frac{58}{4} = 14.5\)

最后,我们求这个数字的平方根

\( \sqrt{14.5} \approx \underline{3.81} \)

因此,示例值的标准差约为:\(3.81 \)



使用编程计算标准差

许多编程语言都可以轻松计算标准差。

对于更大的数据集,使用软件和编程来计算统计数据更为常见,因为手动计算会变得很困难。

总体标准差

示例

使用 Python 中的 NumPy 库 std() 方法来查找值 4,11,7,14 的标准差

import numpy

values = [4,11,7,14]

x = numpy.std(values)

print(x)
自己尝试 »

示例

使用 R 公式查找值 4,11,7,14 的标准差

values <- c(4,7,11,14)

sqrt(mean((values-mean(values))^2))
自己尝试 »

样本标准差

示例

使用 Python 中的 NumPy 库 std() 方法来查找值 4,11,7,14 的**样本**标准差

import numpy

values = [4,11,7,14]

x = numpy.std(values, ddof=1)

print(x)
自己尝试 »

示例

使用 R 的 sd() 函数查找值 4,11,7,14 的**样本**标准差

values <- c(4,7,11,14)

sd(values)
自己尝试 »

统计学符号参考

符号 描述
\( \sigma \) 总体标准差。读作“西格玛”。
\( s \) 样本标准差。
\( \mu \) 总体均值。读作“缪”。
\( \bar{x} \) 样本均值。读作“x 横”。
\( \sum \) 求和运算符,“大西格玛”。
\( x \) 我们正在计算平均值的变量“x”。
\( i \) 变量“x”的索引“i”。它标识每个变量观测值。
\( n \) 观测值的数目。

×

Contact Sales

If you want to use W3Schools services as an educational institution, team or enterprise, send us an e-mail:
[email protected]

Report Error

If you want to report an error, or if you want to make a suggestion, send us an e-mail:
[email protected]

W3Schools is optimized for learning and training. Examples might be simplified to improve reading and learning. Tutorials, references, and examples are constantly reviewed to avoid errors, but we cannot warrant full correctness of all content. While using W3Schools, you agree to have read and accepted our terms of use, cookie and privacy policy.

Copyright 1999-2024 by Refsnes Data. All Rights Reserved. W3Schools is Powered by W3.CSS.