Pandas DataFrame duplicated() 方法

示例

检查哪些行是重复的，哪些不是

import pandas as pd

data = {
"name": ["John", "Mary", "John", "Sally", "Mary"],
"age": [40, 30, 40, 50, 30],
"city": ["Bergen", "Oslo", "Stavanger", "Oslo", "Oslo"]
}

df = pd.DataFrame(data)

s = df.duplicated()

print(s)

自己动手试一试 »

定义和用法

duplicated() 方法返回一个包含 True 和 False 值的 Series，用于描述 DataFrame 中的哪些行是重复的，哪些不是。

使用 subset 参数指定在查找重复项时要包含哪些列。默认情况下，所有列都会被包含。

默认情况下，两个或多个重复项中的第一个出现将被设置为 False。

将 keep 参数设置为 False，也会将第一个出现的项设置为 True。

语法

dataframe.duplicated(subset, keep)

参数

参数是关键字参数。

参数	值	描述
subset	列标签	可选。一个字符串或列表，包含在查找重复项时要包含的列名。默认 subset=None（表示未指定子集，应包含所有列）。
keep	`'first' 'last' False`	可选，默认为 'first'。指定如何处理重复项。 'first' 表示将第一个出现的项设置为 False，其余设置为 True。 'last' 表示将最后一个出现的项设置为 False，其余设置为 True。 False 表示将所有出现的项都设置为 True。

返回值

一个 Series，其中包含 DataFrame 中每一行的布尔值。

Pandas 教程

Cleaning Data

Correlations

绘图

Quiz/Exercises

参考手册

Pandas DataFrame duplicated() 方法

示例

定义和用法

语法

参数

返回值

更多示例

示例

示例

拾色器

联系销售

报告错误

热门教程

热门参考

热门示例

获取证书