数据科学 - Python DataFrame
使用 Pandas 创建 DataFrame
DataFrame 是数据的结构化表示。
让我们定义一个包含 3 列和 5 行的 DataFrame,其中包含虚构的数字
示例
import pandas as pd
d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9, 5], 'col3': [7, 8, 12, 1, 11]}
df = pd.DataFrame(data=d)
print(df)
自己尝试 »
示例解释
- 将 Pandas 库导入为 pd
- 在名为 d 的变量中定义带有列和行的的数据
- 使用函数 pd.DataFrame() 创建 DataFrame
- DataFrame 包含 3 列和 5 行
- 使用 print() 函数打印 DataFrame 输出
我们在 DataFrame() 前面写 pd.,以让 Python 知道我们想要激活 Pandas 库中的 DataFrame() 函数。
注意 DataFrame 中的大写 D 和 F!
解释输出
这是输出结果
我们可以看到“col1”、“col2”和“col3”是列名。
不要对从 0 到 4 的垂直数字感到困惑。它们告诉我们有关行位置的信息。
在 Python 中,行的编号从零开始。
现在,我们可以使用 Python 来计算列和行。
我们可以使用 df.shape[1] 来查找列的数量
我们可以使用 df.shape[0] 来查找行的数量
为什么我们不能自己数行和列?
如果我们使用包含许多列和行的更大的数据集,手动计数会让人感到困惑。你可能会错误地计数。如果我们正确地使用 Python 中的内置函数,我们可以确保计数是正确的。