菜单
×
   ❮     
HTML CSS JAVASCRIPT SQL PYTHON JAVA PHP HOW TO W3.CSS C C++ C# BOOTSTRAP REACT MYSQL JQUERY EXCEL XML DJANGO NUMPY PANDAS NODEJS R TYPESCRIPT ANGULAR GIT POSTGRESQL MONGODB ASP AI GO KOTLIN SASS VUE DSA GEN AI SCIPY AWS CYBERSECURITY DATA SCIENCE
     ❯   

机器学习数据

多达80%的机器学习项目都与数据收集有关

  • 哪些数据是必需的
  • 哪些数据是可用的
  • 如何选择数据?
  • 如何收集数据?
  • 如何清理数据?
  • 如何准备数据?
  • 如何使用数据?

什么是数据?

数据可以是多种多样的。

在机器学习中,数据是事实的集合。

类型示例
数字价格。日期。
测量值尺寸。高度。重量。
词语姓名和地点。
观察数汽车。
描述天气很冷。

智能需要数据

人类智能需要数据

房地产经纪人需要已售房屋的数据来估算价格。

人工智能也需要数据

机器学习程序需要数据来估算价格。

数据可以帮助我们看到和理解。

数据可以帮助我们发现新机会。

数据可以帮助我们消除误解。


医疗保健

医疗保健和生命科学收集公共卫生数据和患者数据,以了解如何改善患者护理和挽救生命。

企业

许多行业中最成功的公司都是数据驱动的。它们使用复杂的数据分析来了解公司如何能表现得更好。

金融

银行和保险公司收集和评估客户、贷款和存款数据,以支持战略决策。


存储数据

最常收集的数据是数字和测量值。

数据通常存储在表示值之间关系的数组中。

此表包含房屋价格与面积

Price7889991011141415
大小5060708090100 110120130140150

定量 vs. 定性

定量数据是数值型的

  • 55辆车
  • 15米
  • 35个孩子

定性数据是描述性的

  • 天气很冷
  • 它很长
  • 很有趣


普查或抽样

普查是指我们收集一个群体中每个成员的数据。

抽样是指我们收集一个群体中部分成员的数据。

如果我们想知道有多少美国人吸烟,我们可以询问美国的每个人(普查),或者我们可以询问10 000人(抽样)。

普查是准确的,但很难做到。抽样是不准确的,但更容易做到。


抽样术语

总体是我们想要从中收集信息的个体(对象)群体。

普查是关于总体中每个个体的信息。

样本是关于总体一部分的信息(为了代表全体)。


随机样本

为了使样本代表总体,必须随机收集。

随机样本是指总体中每个成员都有平等的机会出现在样本中的样本。


抽样偏差

当样本的收集方式导致某些个体不太可能(或更可能)被包含在样本中时,就会发生抽样偏差(误差)。


大数据

大数据是指人类在没有高级机器辅助的情况下无法处理的数据。

大数据在大小方面没有明确定义,但随着我们不断收集越来越多的数据,并以越来越低的成本存储数据,数据集正变得越来越大。


数据挖掘

大数据伴随着复杂的数据结构。

大数据处理的很大一部分是数据精炼。


×

联系销售

如果您想将 W3Schools 服务用于教育机构、团队或企业,请发送电子邮件给我们
sales@w3schools.com

报告错误

如果您想报告错误,或想提出建议,请发送电子邮件给我们
help@w3schools.com

W3Schools 经过优化,旨在方便学习和培训。示例可能经过简化,以提高阅读和学习体验。教程、参考资料和示例会不断审查,以避免错误,但我们无法保证所有内容的完全正确性。使用 W3Schools 即表示您已阅读并接受我们的使用条款Cookie 和隐私政策

版权所有 1999-2024 Refsnes Data。保留所有权利。W3Schools 由 W3.CSS 提供支持