机器学习数据
机器学习项目的 **高达 80%** 都与 **收集数据** 相关
- 需要哪些数据?
- 有哪些可用数据?
- 如何 **选择** 数据?
- 如何 **收集** 数据?
- 如何 **清理** 数据?
- 如何 **准备** 数据?
- 如何 **使用** 数据?
什么是数据?
数据可以是许多东西。
在机器学习中,数据是事实的集合
类型 | 示例 |
---|---|
数字 | 价格。日期。 |
测量值 | 尺寸。高度。重量。 |
文字 | 姓名和地点。 |
观察结果 | 数汽车。 |
描述 | 天气很冷。 |
智能需要数据
人类智能需要数据
房地产经纪人需要有关已售房屋的数据来估算价格。
人工智能也需要数据
机器学习程序需要数据来估算价格。
数据可以帮助我们看到和理解。
数据可以帮助我们发现新的机会。
数据可以帮助我们解决误解。
医疗保健
医疗保健和生命科学收集公共卫生数据和患者数据,以了解如何改善患者护理并挽救生命。
商业
许多行业中最成功的公司都是数据驱动的。他们使用复杂的数据分析来了解公司如何才能表现得更好。
金融
银行和保险公司收集和评估有关客户、贷款和存款的数据,以支持战略决策。
存储数据
最常收集的数据是数字和测量值。
通常,数据存储在数组中,表示值之间的关系。
此表包含房价与面积的关系
价格 | 7 | 8 | 8 | 9 | 9 | 9 | 10 | 11 | 14 | 14 | 15 |
面积 | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 |
定量与定性
定量数据是数值型
- 55 辆汽车
- 15 米
- 35 个孩子
定性数据是描述性
- 天气很冷
- 它很长
- 这很有趣
普查或抽样
**普查** 是指我们收集某个群体中每个成员的数据。
**抽样** 是指我们收集某个群体中部分成员的数据。
如果我们想知道有多少美国人吸烟,我们可以询问美国每个公民(普查),或者我们可以询问 10000 人(抽样)。
普查 **准确** 但难以进行。抽样 **不准确** 但更容易进行。
抽样术语
**总体** 是我们想要从中收集信息的个体(对象)群体。
**普查** 是有关总体中每个个体的信息。
**样本** 是有关总体一部分的信息(为了代表所有)。
随机样本
为了使样本能够代表总体,必须随机收集样本。
**随机样本** 是一个样本,其中总体中的每个成员都有相同的机会出现在样本中。
抽样偏差
当样本的收集方式导致某些个体不太可能(或更有可能)被包含在样本中时,就会发生 **抽样偏差**(误差)。
大数据
大数据是指人类在没有先进机器的帮助下无法处理的数据。
大数据在规模方面没有任何定义,但随着我们不断收集越来越多的数据并在越来越低的成本下存储数据,数据集正变得越来越大。
数据挖掘
大数据带来了复杂的数据结构。
大数据处理的很大一部分是细化数据。