机器学习
机器学习是通过研究数据和统计数据来让计算机学习。
机器学习是人工智能(AI)方向上的一步。
机器学习是一种分析数据并学习预测结果的程序。
从哪里开始?
在本教程中,我们将回顾数学和统计学,以及如何根据数据集计算重要数字。
我们还将学习如何使用各种 Python 模块来获取所需答案。
我们将学习如何创建能够根据所学内容预测结果的函数。
数据集
在计算机看来,数据集是任何数据的集合。它可以是数组,也可以是完整的数据库。
数组示例
[99,86,87,88,111,86,103,87,94,78,77,85,86]
数据库示例
汽车名称 | 颜色 | Age | 速度 | AutoPass |
宝马 | red | 5 | 99 | Y |
沃尔沃 | black | 7 | 86 | Y |
VW | gray | 8 | 87 | N |
VW | white | 7 | 88 | Y |
福特 | white | 2 | 111 | Y |
VW | white | 17 | 86 | Y |
特斯拉 | red | 2 | 103 | Y |
宝马 | black | 9 | 87 | Y |
沃尔沃 | gray | 4 | 94 | N |
福特 | white | 11 | 78 | N |
丰田 | gray | 12 | 77 | N |
VW | white | 9 | 85 | N |
丰田 | blue | 6 | 86 | Y |
通过查看数组,我们可以猜测平均值可能在 80 或 90 左右,我们也能确定最高值和最低值,但我们还能做什么呢?
通过查看数据库,我们可以看到最受欢迎的颜色是白色,最老的汽车是 17 年,但如果我们能仅凭查看其他值来预测一辆汽车是否拥有 AutoPass 呢?
这就是机器学习的作用!分析数据并预测结果!
在机器学习中,处理非常大的数据集是很常见的。在本教程中,我们将尽力让理解机器学习的各个概念尽可能容易,并将使用易于理解的小型数据集。
数据类型
为了分析数据,了解我们正在处理的数据类型非常重要。
我们可以将数据类型分为三大类
- 数值型
- 分类型
- 有序型
数值型数据是数字,可以分为两个数值类别
- 离散数据
- 有限的整数。示例:经过的汽车数量。 - 连续数据
- 可测量的数据,可以是任何数字。示例:商品的價格或商品的大小
分类型数据是无法相互比较的值。示例:颜色值或任何是/否值。
有序型数据类似于分类型数据,但可以相互比较。示例:学校成绩,A 比 B 好,依此类推。
了解数据源的数据类型,您将能够知道在分析它们时使用哪种技术。
您将在接下来的章节中了解更多关于统计和数据分析的内容。