pandas DataFrame 重复数据处理 – duplicated()和 drop_duplicates()
DataFrame.duplicated(self, subset: Union[Hashable, Sequence[Hashable], NoneType] = None, keep: Union[str, bool] = ‘first’) → ‘Series’ subset: 列标签(表头),可以是单个,也可以是列表 keep=’first’(默认):标记/删除除第一个匹配项以外的重复项。 keep=“last”:标记/删除除最后一个匹配项以外的重复项。 keep=False:标记/删除所有重复项。 return : 返回一个断subset所在行是不是重复行的Boolean Series DataFrame.drop_duplicates(self, subset: Union[Hashable, Sequence[Hashable], NoneType] = None, keep: Union[str, bool] = ‘first’, inplace: bool = False, ignore_index: bool = False) subset: 列标签(表头),可以是单个,也可以是列表 keep=’first’(默认):标记/删除除第一个匹配项以外的重复项。 keep=“last”:标记/删除除最后一个匹配项以外的重复项。 keep=False:标记/删除所有重复项。 inplace :是否更改源数据 ingore_index:是否忽略index Read more…