机器学习
机器学习是让计算机通过学习数据和统计信息来进行学习。
机器学习是迈向人工智能 (AI) 的一步。
机器学习是一种分析数据并学习预测结果的程序。
从哪里开始?
在本教程中,我们将回到数学领域,学习统计学,以及如何根据数据集计算重要数字。
我们还将学习如何使用各种 Python 模块来获得我们需要的答案。
我们将学习如何创建能够根据我们学到的知识预测结果的函数。
数据集
在计算机的眼中,数据集是任何数据的集合。它可以是任何东西,从数组到完整的数据库。
数组示例
[99,86,87,88,111,86,103,87,94,78,77,85,86]
数据库示例
汽车名称 | 颜色 | 年龄 | 速度 | 自动通行证 |
宝马 | 红色 | 5 | 99 | Y |
沃尔沃 | 黑色 | 7 | 86 | Y |
大众 | 灰色 | 8 | 87 | N |
大众 | 白色 | 7 | 88 | Y |
福特 | 白色 | 2 | 111 | Y |
大众 | 白色 | 17 | 86 | Y |
特斯拉 | 红色 | 2 | 103 | Y |
宝马 | 黑色 | 9 | 87 | Y |
沃尔沃 | 灰色 | 4 | 94 | N |
福特 | 白色 | 11 | 78 | N |
丰田 | 灰色 | 12 | 77 | N |
大众 | 白色 | 9 | 85 | N |
丰田 | 蓝色 | 6 | 86 | Y |
通过查看数组,我们可以猜测平均值可能在 80 或 90 左右,我们也能确定最高值和最低值,但我们还能做什么呢?
通过查看数据库,我们可以看到最流行的颜色是白色,最老的汽车有 17 年历史,但如果我们能仅仅通过查看其他值来预测汽车是否有自动通行证,那该怎么办呢?
这就是机器学习的作用!分析数据并预测结果!
在机器学习中,通常会使用非常大的数据集。在本教程中,我们将尝试尽可能地简化对机器学习不同概念的理解,并将使用小型易于理解的数据集。
数据类型
要分析数据,重要的是了解我们正在处理的数据类型。
我们可以将数据类型分为三个主要类别
- 数值
- 类别
- 序数
**数值**数据是数字,可以分为两个数值类别
- 离散数据
- 计数数据,仅限于整数。例如:经过的汽车数量。 - 连续数据
- 测量数据,可以是任何数字。例如:商品的价格或商品的大小
**类别**数据是不能相互比较的值。例如:颜色值或任何是/否值。
**序数**数据类似于类别数据,但可以相互比较。例如:学校等级,其中 A 比 B 好等等。
通过了解数据源的数据类型,您将能够知道在分析它们时使用什么技术。
您将在下一章中了解有关统计和数据分析的更多信息。