Pandas DataFrame drop_duplicates() 方法
示例
从 DataFrame 中移除重复行
import pandas as pd
data = {
"name": ["Sally", "Mary", "John", "Mary"],
"age": [50, 40, 30, 40],
"qualified": [True, False, False, False]
}
df = pd.DataFrame(data)
newdf = df.drop_duplicates()
自己动手试一试 »
定义和用法
drop_duplicates()
方法会移除重复的行。
如果只想根据特定列来查找重复项,请使用 subset
参数。
语法
dataframe.drop_duplicates(subset, keep, inplace, ignore_index)
参数
参数是 关键字参数。
参数 | 值 | 描述 |
---|---|---|
subset | 列标签 | 可选。一个字符串或一个列表,包含查找重复项时要使用的列。如果未指定,则使用所有列。 |
keep | 'first' |
可选,默认为 'first'。指定保留哪个重复项。如果为 False,则删除所有重复项。 |
inplace | True |
可选,默认为 `False`。如果为 `True`:则在当前 DataFrame 上执行删除操作。如果为 `False`:则返回一个已执行删除操作的副本。 |
ignore_index | True |
可选,默认为 False。指定是否为 0、1、2 等进行标签化,或者不进行标签化。 |
返回值
一个带有结果的DataFrame,如果 inplace 参数设置为 True,则为 None。