pandas DataFrame 重复数据处理 – duplicated()和 drop_duplicates()

DataFrame.duplicated(self, subset: Union[Hashable, Sequence[Hashable], NoneType] = None, keep: Union[str, bool] = ‘first’) → ‘Series’ subset: 列标签(表头),可以是单个,也可以是列表 keep=’first’(默认):标记/删除除第一个匹配项以外的重复项。 keep=“last”:标记/删除除最后一个匹配项以外的重复项。 keep=False:标记/删除所有重复项。 return : 返回一个断subset所在行是不是重复行的Boolean Series DataFrame.drop_duplicates(self, subset: Union[Hashable, Sequence[Hashable], NoneType] = None, keep: Union[str, bool] = ‘first’, inplace: bool = False, ignore_index: bool = False) subset: 列标签(表头),可以是单个,也可以是列表 keep=’first’(默认):标记/删除除第一个匹配项以外的重复项。 keep=“last”:标记/删除除最后一个匹配项以外的重复项。 keep=False:标记/删除所有重复项。 inplace :是否更改源数据 ingore_index:是否忽略index Read more…

pandas.DataFrame.where() 和 mask()方法

DataFrame.where(self, cond, other=nan, inplace=False, axis=None, level=None, errors=’raise’, try_cast=False) cond :条件,当条件满足时保留原始值,不满足,用other代替 other: cond不满足时,替换的值,默认是nan inplace: 决定是否对原始数据进行操作 return 输入的格式 用于条件筛选,符合条件留下,否则进行相应操作。 DataFrame.mask(self, cond, other=nan, inplace=False, axis=None, level=None, errors=’raise’, try_cast=False) 参数与where一致,条件刚好相反 #example of Series #example of DataFrame

pandas.DataFrame.any()与all()

顾名思义,any()一个序列中满足一个True,则返回True;all()一个序列中所有值为True时,返回True,否则为False。这点可从 Series 的any()和all()的例子中看出。 1、pandas.DataFrame.any() DataFrame.any(self, axis=0, bool_only=None, skipna=True, level=None, **kwargs) axis:0为行(index),1为列(columns),默认为0 bool_only:用于是否只利用序列中的Boolean值进行判断 skipna,是否跳过NA/null值 return 一个series或DataFrame 2、pandas.DataFrame.all() DataFrame.all(self, axis=0, bool_only=None, skipna=True, level=None, **kwargs) 参数与any()一致

pandas.DataFrame的apply()、applymap()、map()

1、apply() pandas.DataFrame.apply 该方法可对Series和DataFrame进行操作 DataFrame.apply(self, func, axis=0, raw=False, result_type=None, args=(), **kwds) func应用函数 axis 0为行,1为列 raw 传入为 Series 还是 ndarray 对象 result_type 返回类型, expand 将返回结果扩展 2、map() pandas.Series.map map() 只对Series有作用 Series.map(self, arg, na_action=None) 3、applymap() pandas.DataFrame.applymap DataFrame.applymap(self, func) 只对DataFrame有作用

Pandas – Indexing and selecting data

数据轴标签(即索引index)在pandas 的对象( Series和DataFrame )中起着重要作用,比如确定数据位置、获取数据集的子集。 Object Type Indexers Series s.loc[indexer] DataFrame df.loc[row_indexer,column_indexer] 可以用.对数据进行切片操作 1、loc与iloc Selection by callable 根据函数返回结果调用 df.sample(n=1, axis=1) 随机抽取一行或一列 2、at与iat 用于访问值(标量)用法与loc和iloc一致 3、利用逻辑向量对Series和DataFrame进行选取 | for or, & for and, and ~ for not. 4、isin使用 Series.isin(list()) DataFrame.isin() DataFrame.isin()参数为dict时 5、where() & mask() 见链接 pandas.DataFrame.where() 和 mask()方法 6、query() 见链接 pandas.DataFrame.query()方法 7、query() 与 isin() isin()见链接 pandas.Series.isin()和pandas.DataFrame.isin() 从性能上讲,query()更快 8、重复数据 duplicated 数据处理见链接 pandas DataFrame Read more…