数据科学 - Python DataFrame
使用 Pandas 创建 DataFrame
DataFrame 是数据的结构化表示。
让我们用虚构数字定义一个包含 3 列和 5 行的 DataFrame。
示例
import pandas as pd
d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9, 5], 'col3': [7, 8, 12, 1, 11]}
df = pd.DataFrame(data=d)
print(df)
自己动手试一试 »
示例解释
- 将 Pandas 库导入为 pd
- 在名为 d 的变量中定义包含列和行的数据
- 使用 pd.DataFrame() 函数创建 DataFrame
- DataFrame 包含 3 列和 5 行
- 使用 print() 函数打印 DataFrame 输出
我们在 DataFrame() 前面加上 pd.,以便 Python 知道我们要激活 Pandas 库中的 DataFrame() 函数。
请注意 DataFrame 中大写的 D 和 F!
解释输出
这是输出
我们看到“col1”、“col2”和“col3”是列的名称。
不要混淆范围从 0-4 的垂直数字。它们告诉我们有关行位置的信息。
在 Python 中,行的编号从零开始。
现在,我们可以使用 Python 来计算列和行。
我们可以使用 df.shape[1] 来查找列数
我们可以使用 df.shape[0] 来查找行数
为什么我们不能自己计算行和列?
如果我们处理包含许多列和行的更大数据集,手动计数会很麻烦。您可能会数错。如果我们正确使用 Python 中的内置函数,就可以确保计数是正确的。