机器学习 - 数据分布
数据分布
在本教程的早期,我们使用非常小的数据集来理解不同的概念。
在现实世界中,数据集要大得多,但在项目早期阶段,很难收集真实世界的数据。
如何获取大型数据集?
为了创建用于测试的大型数据集,我们使用 Python 模块 NumPy,它提供了许多方法来创建任意大小的随机数据集。
示例
创建一个包含 250 个介于 0 和 5 之间的随机浮点数的数组
import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)
自己动手试一试 »
直方图
为了可视化数据集,我们可以使用收集到的数据绘制直方图。
我们将使用 Python 模块 Matplotlib 来绘制直方图。
在我们的 Matplotlib 教程 中了解 Matplotlib 模块。
示例
绘制直方图
import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()
结果
直方图说明
我们使用上面示例中的数组绘制一个有 5 个条的直方图。
第一个条代表数组中有多少值介于 0 和 1 之间。
第二个条代表有多少值介于 1 和 2 之间。
等等。
结果如下
- 52 个值介于 0 和 1 之间
- 48 个值介于 1 和 2 之间
- 49 个值介于 2 和 3 之间
- 51 个值介于 3 和 4 之间
- 50 个值介于 4 和 5 之间
注意: 数组值是随机数,在你的电脑上显示的结果可能不完全相同。
大数据集分布
包含 250 个值的数组不被认为是很大的,但现在你知道如何创建随机值集,并且通过改变参数,你可以创建任意大的数据集。
示例
创建一个包含 100000 个随机数的数组,并使用具有 100 个条的直方图显示它们
import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()
运行示例 »