Pandas - 分析数据框
查看数据
获取数据框快速概述最常用的方法之一是 head()
方法。
head()
方法返回标题和指定数量的行,从顶部开始。
在我们的示例中,我们将使用一个名为“data.csv”的 CSV 文件。
下载 data.csv,或在浏览器中打开 data.csv。
注意:如果未指定行数,则 head()
方法将返回前 5 行。
还有一个 tail()
方法用于查看数据框的最后几行。
tail()
方法返回标题和指定数量的行,从底部开始。
关于数据的信息
DataFrames 对象有一个名为 info()
的方法,它提供有关数据集的更多信息。
示例
打印有关数据的信息
print(df.info())
结果
<class 'pandas.core.frame.DataFrame'> RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64 dtypes: float64(1), int64(3) memory usage: 5.4 KB None
结果解释
结果告诉我们有 169 行和 4 列
RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns):
以及每列的名称及其数据类型
# Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64
空值
info()
方法还告诉我们每列中存在多少个非空值,在我们的数据集中,似乎“Calories”列中有 164 个非空值(共 169 个)。
这意味着“Calories”列中有 5 行完全没有值,无论出于何种原因。
空值或空值在分析数据时可能不好,您应该考虑删除包含空值的行。这是迈向所谓的数据清洗的一步,您将在接下来的章节中了解更多相关内容。