菜单
×
   ❮     
HTML CSS JAVASCRIPT SQL PYTHON JAVA PHP HOW TO W3.CSS C C++ C# BOOTSTRAP REACT MYSQL JQUERY EXCEL XML DJANGO NUMPY PANDAS NODEJS R TYPESCRIPT ANGULAR GIT POSTGRESQL MONGODB ASP AI GO KOTLIN SASS VUE DSA GEN AI SCIPY AWS CYBERSECURITY DATA SCIENCE
     ❯   

Pandas DataFrame duplicated() 方法

❮ DataFrame 参考


示例

检查哪些行是重复的,哪些不是

import pandas as pd

data = {
  "name": ["John", "Mary", "John", "Sally", "Mary"],
  "age": [40, 30, 40, 50, 30],
  "city": ["Bergen", "Oslo", "Stavanger", "Oslo", "Oslo"]
}

df = pd.DataFrame(data)

s = df.duplicated()

print(s)
自己动手试一试 »

定义和用法

duplicated() 方法返回一个包含 True 和 False 值的 Series,用于描述 DataFrame 中的哪些行是重复的,哪些不是。

使用 subset 参数指定在查找重复项时要包含哪些列。默认情况下,所有列都会被包含。

默认情况下,两个或多个重复项中的第一个出现将被设置为 False。

keep 参数设置为 False,也会将第一个出现的项设置为 True。


语法

dataframe.duplicated(subset, keep)

参数

参数是 关键字参数

参数 描述
subset 列标签 可选。一个字符串或列表,包含在查找重复项时要包含的列名。默认 subset=None(表示未指定子集,应包含所有列)。
keep 'first'
'last'
False
可选,默认为 'first'。指定如何处理重复项。
'first' 表示将第一个出现的项设置为 False,其余设置为 True。
'last' 表示将最后一个出现的项设置为 False,其余设置为 True。
False 表示将所有出现的项都设置为 True。

返回值

一个 Series,其中包含 DataFrame 中每一行的布尔值。


更多示例

示例

只包含 "name" 和 "age" 列

s = df.duplicated(subset=["name", "age"])

print(s)
自己动手试一试 »

示例

将所有重复出现的项都设置为 True

s = df.duplicated(keep=False)

print(s)
自己动手试一试 »

❮ DataFrame 参考

×

联系销售

如果您想将 W3Schools 服务用于教育机构、团队或企业,请发送电子邮件给我们
sales@w3schools.com

报告错误

如果您想报告错误,或想提出建议,请发送电子邮件给我们
help@w3schools.com

W3Schools 经过优化,旨在方便学习和培训。示例可能经过简化,以提高阅读和学习体验。教程、参考资料和示例会不断审查,以避免错误,但我们无法保证所有内容的完全正确性。使用 W3Schools 即表示您已阅读并接受我们的使用条款Cookie 和隐私政策

版权所有 1999-2024 Refsnes Data。保留所有权利。W3Schools 由 W3.CSS 提供支持