Pandas 简介
什么是 Pandas?
Pandas 是一个用于处理数据集的 Python 库。
它具有分析、清洗、探索和操作数据的功能。
“Pandas”这个名字同时引用了“Panel Data”(面板数据)和“Python Data Analysis”(Python 数据分析),由 Wes McKinney 于 2008 年创建。
为什么要使用 Pandas?
Pandas 允许我们分析大数据,并根据统计理论得出结论。
Pandas 可以清洗杂乱的数据集,使其变得可读和相关。
相关数据在数据科学中非常重要。
数据科学:是计算机科学的一个分支,我们研究如何存储、使用和分析数据,以便从中获取信息。
Pandas 能做什么?
Pandas 能为你提供关于数据的答案。例如:
- 两列或多列之间是否存在关联?
- 平均值是多少?
- 最大值是多少?
- 最小值是多少?
Pandas 还能够删除不相关或包含错误值的行,例如空值或 NULL 值。这被称为清洗数据。
Pandas 的代码库在哪里?
Pandas 的源代码位于这个 GitHub 仓库:https://github.com/pandas-dev/pandas
github: 允许许多人同时处理同一个代码库。