Pandas DataFrame duplicated() 方法
示例
检查哪些行是重复的,哪些不是
import pandas as pd
data = {
"name": ["John", "Mary", "John", "Sally", "Mary"],
"age": [40, 30, 40, 50, 30],
"city": ["Bergen", "Oslo", "Stavanger", "Oslo", "Oslo"]
}
df = pd.DataFrame(data)
s = df.duplicated()
print(s)
自己尝试 »
定义和用法
The duplicated()
方法返回一个包含 True 和 False 值的 Series,用于描述 DataFrame 中哪些行是重复的,哪些不是。
使用 subset
参数指定在查找重复项时要包含哪些列。默认情况下,包含所有列。
默认情况下,两个或多个重复项的第一次出现将设置为 False。
将 keep
参数设置为 False
以将第一次出现也设置为 True。
语法
dataframe.duplicated(subset, keep)
参数
这些参数是 关键字参数。
参数 | 值 | 描述 |
---|---|---|
subset | 列标签 | 可选。字符串或列表,表示在查找重复项时要包含的列名。默认 subset=None(表示未指定子集,应包含所有列)。 |
keep | 'first' |
可选,默认为 'first'。指定如何处理重复项 'first' 表示将第一次出现设置为 False,其余设置为 True。 'last' 表示将最后一次出现设置为 False,其余设置为 True。 False 表示将所有出现设置为 True。 |
返回值
一个包含 DataFrame 中每一行的布尔值的 Series。