Pandas DataFrame duplicated() 方法
示例
检查哪些行是重复的,哪些不是
import pandas as pd
data = {
"name": ["John", "Mary", "John", "Sally", "Mary"],
"age": [40, 30, 40, 50, 30],
"city": ["Bergen", "Oslo", "Stavanger", "Oslo", "Oslo"]
}
df = pd.DataFrame(data)
s = df.duplicated()
print(s)
自己动手试一试 »
定义和用法
duplicated()
方法返回一个包含 True 和 False 值的 Series,用于描述 DataFrame 中的哪些行是重复的,哪些不是。
使用 subset
参数指定在查找重复项时要包含哪些列。默认情况下,所有列都会被包含。
默认情况下,两个或多个重复项中的第一个出现将被设置为 False。
将 keep
参数设置为 False
,也会将第一个出现的项设置为 True。
语法
dataframe.duplicated(subset, keep)
参数
参数是 关键字参数。
参数 | 值 | 描述 |
---|---|---|
subset | 列标签 | 可选。一个字符串或列表,包含在查找重复项时要包含的列名。默认 subset=None(表示未指定子集,应包含所有列)。 |
keep | 'first' |
可选,默认为 'first'。指定如何处理重复项。 'first' 表示将第一个出现的项设置为 False,其余设置为 True。 'last' 表示将最后一个出现的项设置为 False,其余设置为 True。 False 表示将所有出现的项都设置为 True。 |
返回值
一个 Series,其中包含 DataFrame 中每一行的布尔值。