菜单
×
   ❮   
HTML CSS JAVASCRIPT SQL PYTHON JAVA PHP HOW TO W3.CSS C C++ C# BOOTSTRAP REACT MYSQL JQUERY EXCEL XML DJANGO NUMPY PANDAS NODEJS R TYPESCRIPT ANGULAR GIT POSTGRESQL MONGODB ASP AI GO KOTLIN SASS VUE DSA GEN AI SCIPY AWS CYBERSECURITY DATA SCIENCE
     ❯   

统计 - 标准差


标准差是变化性中最常用的度量,它描述了数据的离散程度。


标准差

标准差 (σ) 衡量“典型”观测值与数据平均值 (μ) 的距离。

标准差对于许多统计方法都很重要。

这是截至 2020 年所有 934 位诺贝尔奖获得者年龄的直方图,显示了标准差

Histogram of the age of Nobel Prize winners with interquartile range shown.

直方图中的每条虚线都表示增加一个标准差的偏移。

如果数据是正态分布的:

  • 大约 68.3% 的数据在平均值的一个标准差范围内 (从 μ-1σ 到 μ+1σ)
  • 大约 95.5% 的数据在平均值的两个标准差范围内 (从 μ-2σ 到 μ+2σ)
  • 大约 99.7% 的数据在平均值的三个标准差范围内 (从 μ-3σ 到 μ+3σ)

注意:正态分布呈“钟形”,并向两侧均匀分布。


计算标准差

您可以计算总体样本的标准差。

这两个公式几乎相同,并使用不同的符号来指代标准差 (\(\sigma\)) 和样本标准差 (\(s\))。

标准差 (\(\sigma\)) 的计算公式为:

\(\displaystyle \sigma = \sqrt{\frac{\sum (x_{i}-\mu)^2}{n}}\)

样本标准差 (\(s\)) 的计算公式为:

\(\displaystyle s = \sqrt{\frac{\sum (x_{i}-\bar{x})^2}{n-1}}\)

\(n\) 是观测值的总数。

\(\sum \) 是将一系列数字相加的符号。

\(x_{i}\) 是数据中的值列表:\(x_{1}, x_{2}, x_{3}, \ldots \)

\(\mu\) 是总体均值,\(\bar{x}\) 是样本均值(平均值)。

\( (x_{i} - \mu ) \) 和 \( (x_{i} - \bar{x} ) \) 是观测值 (\(x_{i}\)) 与均值之间的差值。

每个差值都被平方并相加。

然后将总和除以 \(n\) 或 (\( n - 1 \)),然后计算平方根。

使用这 4 个示例值计算总体标准差

4, 11, 7, 14

我们必须先找到均值

\(\displaystyle \mu = \frac{\sum x_{i}}{n} = \frac{4 + 11 + 7 + 14}{4} = \frac{36}{4} = \underline{9} \)

然后我们找到每个值与均值的差值 \( (x_{i}- \mu)\)

  • \( 4-9 \; \:= -5 \)
  • \( 11-9 = 2 \)
  • \( 7-9 \; \:= -2 \)
  • \( 14-9 = 5 \)

然后将每个值平方,即乘以自身 \( ( x_{i}- \mu )^2\)

  • \( (-5)^2 = (-5)(-5) = 25 \)
  • \( 2^2 \; \; \; \; \; \, = 2*2 \; \; \; \; \; \; \; \: = 4 \)
  • \( (-2)^2 = (-2)(-2) = 4 \)
  • \( 5^2 \; \; \; \; \; \, = 5*5 \; \; \; \; \; \; \; \: = 25 \)

然后将所有平方差相加 \( \sum (x_{i} -\mu )^2\)

\( 25 + 4 + 4 + 25 = 58\)

然后将总和除以观测值的总数 \( n \)

\( \displaystyle \frac{58}{4} = 14.5\)

最后,我们取这个数字的平方根

\( \sqrt{14.5} \approx \underline{3.81} \)

因此,示例值的标准差大约为:\(3.81 \)



使用编程计算标准差

使用许多编程语言可以轻松计算标准差。

使用软件和编程计算统计数据对于较大的数据集更为常见,因为手动计算会变得困难。

总体标准差

示例

在 Python 中,使用 NumPy 库的 std() 方法查找值 4,11,7,14 的标准差

import numpy

values = [4,11,7,14]

x = numpy.std(values)

print(x)
自己动手试一试 »

示例

使用 R 公式查找值 4,11,7,14 的标准差

values <- c(4,7,11,14)

sqrt(mean((values-mean(values))^2))
自己动手试一试 »

样本标准差

示例

在 Python 中,使用 NumPy 库的 std() 方法查找值 4,11,7,14 的样本标准差

import numpy

values = [4,11,7,14]

x = numpy.std(values, ddof=1)

print(x)
自己动手试一试 »

示例

使用 R sd() 函数查找值 4,11,7,14 的样本标准差

values <- c(4,7,11,14)

sd(values)
自己动手试一试 »

统计符号参考

符号 描述
\( \sigma \) 总体标准差。发音为“sigma”。
\( s \) 样本标准差。
\( \mu \) 总体均值。发音为“mu”。
\( \bar{x} \) 样本均值。发音为“x-bar”。
\( \sum \) 求和运算符,“大写 Sigma”。
\( x \) 我们要计算平均值的变量“x”。
\( i \) 变量“x”的索引“i”。它标识了变量的每个观测值。
\( n \) 观测值的数量。

×

联系销售

如果您想将 W3Schools 服务用于教育机构、团队或企业,请发送电子邮件给我们
sales@w3schools.com

报告错误

如果您想报告错误,或想提出建议,请发送电子邮件给我们
help@w3schools.com

W3Schools 经过优化,旨在方便学习和培训。示例可能经过简化,以提高阅读和学习体验。教程、参考资料和示例会不断审查,以避免错误,但我们无法保证所有内容的完全正确性。使用 W3Schools 即表示您已阅读并接受我们的使用条款Cookie 和隐私政策

版权所有 1999-2024 Refsnes Data。保留所有权利。W3Schools 由 W3.CSS 提供支持