数据科学 导论
数据科学是多个学科的结合,它利用统计学、数据分析和机器学习来分析数据,并从中提取知识和见解。
什么是数据科学?
数据科学关乎数据收集、分析和决策。
数据科学通过分析来发现数据中的模式,并进行未来预测。
通过使用数据科学,公司能够做出
- 更好的决策(选择 A 还是 B)
- 预测性分析(接下来会发生什么?)
- 模式发现(找到模式,或者数据中隐藏的信息)
数据科学需要用到哪里?
数据科学如今被广泛应用于世界各地的许多行业,例如银行业、咨询业、医疗保健业和制造业。
需要数据科学的示例
- 用于路线规划:发现最佳的运输路线
- 预测航班/轮船/火车等的延误(通过预测性分析)
- 创建促销优惠
- 找到最佳的货物配送时间
- 预测公司下一年的收入
- 分析训练的健康益处
- 预测谁将赢得选举
数据科学可以应用于企业中几乎所有有数据的部分。例如:
- 消费品
- 股票市场
- 工业
- 政治
- 物流公司
- 电子商务
数据科学家如何工作?
数据科学家需要具备多方面的专业知识
- 机器学习
- 统计学
- 编程(Python 或 R)
- 数学
- 数据库
数据科学家必须在数据中找到模式。在找到模式之前,他们必须将数据整理成标准格式。
数据科学家工作流程如下:
- 提出正确的问题 - 理解业务问题。
- 探索和收集数据 - 从数据库、网页日志、客户反馈等。
- 提取数据 - 将数据转换为标准化格式。
- 清理数据 - 移除数据中的错误值。
- 查找和替换缺失值 - 检查缺失值并用合适的值替换(例如平均值)。
- 数据规范化 - 将值缩放到实际范围(例如,140 厘米比 1.8 米小。但数字 140 比 1.8 大。因此,缩放很重要)。
- 分析数据,发现模式并进行未来预测.
- 展示结果 - 以“公司”能够理解的方式展示有用的见解。
从哪里开始?
在本教程中,我们将从介绍数据是什么以及如何分析数据开始。
您将学习如何使用统计和数学函数进行预测。