数据科学 导论
数据科学是多种学科的结合,它利用统计学、数据分析和机器学习来分析数据,并从中提取知识和见解。
什么是数据科学?
数据科学涉及数据收集、分析和决策制定。
数据科学是关于通过分析发现数据中的模式,并进行未来预测。
通过使用数据科学,公司能够做出
- 更佳的决策(我们应该选择A还是B)
- 预测性分析(接下来会发生什么?)
- 模式发现(找到数据中的模式,或者可能是隐藏的信息)
数据科学在哪里需要?
数据科学如今被应用于世界各地的许多行业,例如银行、咨询、医疗保健和制造业。
数据科学需要应用的示例
- 用于路线规划:发现最佳运输路线
- 预测航班/船舶/火车等的延误(通过预测性分析)
- 创建促销活动
- 找到最合适的商品交付时间
- 预测公司明年的收入
- 分析训练的健康益处
- 预测谁将赢得选举
数据科学几乎可以应用于任何有数据可用的业务领域。例如
- 消费品
- 股票市场
- 工业
- 政治
- 物流公司
- 电子商务
数据科学家如何工作?
数据科学家需要具备多个领域的专业知识
- 机器学习
- 统计学
- 编程(Python 或 R)
- 数学
- 数据库
数据科学家必须找到数据中的模式。在他/她能够找到模式之前,他/她必须将数据组织成标准格式。
以下是数据科学家如何工作的
- 提出正确的问题 - 了解业务问题。
- 探索和收集数据 - 来自数据库、网络日志、客户反馈等。
- 提取数据 - 将数据转换为标准化格式。
- 清理数据 - 从数据中删除错误值。
- 查找和替换缺失值 - 检查缺失值并用合适的值替换它们(例如,平均值)。
- 规范化数据 - 将值缩放到实用范围内(例如,140 厘米小于 1.8 米。但是,数字 140 大于 1.8。- 所以缩放很重要)。
- 分析数据、发现模式并进行未来预测.
- 呈现结果 - 以“公司”能够理解的方式,用有用的见解呈现结果。
从哪里开始?
在本教程中,我们将首先介绍什么是数据以及如何分析数据。
您将学习如何使用统计和数学函数进行预测。