Menu
×
   ❮     
HTML CSS JAVASCRIPT SQL PYTHON JAVA PHP HOW TO W3.CSS C C++ C# BOOTSTRAP REACT MYSQL JQUERY EXCEL XML DJANGO NUMPY PANDAS NODEJS R TYPESCRIPT ANGULAR GIT POSTGRESQL MONGODB ASP AI GO KOTLIN SASS VUE DSA GEN AI SCIPY AWS CYBERSECURITY DATA SCIENCE
     ❯   

Pandas DataFrame duplicated() 方法

❮ DataFrame 参考


示例

检查哪些行是重复的,哪些不是

import pandas as pd

data = {
  "name": ["John", "Mary", "John", "Sally", "Mary"],
  "age": [40, 30, 40, 50, 30],
  "city": ["Bergen", "Oslo", "Stavanger", "Oslo", "Oslo"]
}

df = pd.DataFrame(data)

s = df.duplicated()

print(s)
自己尝试 »

定义和用法

The duplicated() 方法返回一个包含 True 和 False 值的 Series,用于描述 DataFrame 中哪些行是重复的,哪些不是。

使用 subset 参数指定在查找重复项时要包含哪些列。默认情况下,包含所有列。

默认情况下,两个或多个重复项的第一次出现将设置为 False。

keep 参数设置为 False 以将第一次出现也设置为 True。


语法

dataframe.duplicated(subset, keep)

参数

这些参数是 关键字参数

参数 描述
subset 列标签 可选。字符串或列表,表示在查找重复项时要包含的列名。默认 subset=None(表示未指定子集,应包含所有列)。
keep 'first'
'last'
False
可选,默认为 'first'。指定如何处理重复项
'first' 表示将第一次出现设置为 False,其余设置为 True。
'last' 表示将最后一次出现设置为 False,其余设置为 True。
False 表示将所有出现设置为 True。

返回值

一个包含 DataFrame 中每一行的布尔值的 Series


更多示例

示例

仅包含 "name" 和 "age" 列

s = df.duplicated(subset=["name", "age"])

print(s)
自己尝试 »

示例

将所有重复项的出现设置为 True

s = df.duplicated(keep=False)

print(s)
自己尝试 »

❮ DataFrame 参考

×

Contact Sales

If you want to use W3Schools services as an educational institution, team or enterprise, send us an e-mail:
[email protected]

Report Error

If you want to report an error, or if you want to make a suggestion, send us an e-mail:
[email protected]

W3Schools is optimized for learning and training. Examples might be simplified to improve reading and learning. Tutorials, references, and examples are constantly reviewed to avoid errors, but we cannot warrant full correctness of all content. While using W3Schools, you agree to have read and accepted our terms of use, cookie and privacy policy.

Copyright 1999-2024 by Refsnes Data. All Rights Reserved. W3Schools is Powered by W3.CSS.