Pandas学习笔记之重复数据统计

来源：互联网发布：java语言和c语言编辑：程序博客网时间：2024/06/02 09:50

在医院统计计算绩效数据，通过在网上搜索，发现Pandas确实在数据处理确实快。本文章持续更新和更改，只供自己学习使用

一、重复数据查询：

Pandas提供duplicated函数标记重复

pandas.DataFrame.duplicated(self, subset=None, keep=’first’)

subset：用于识别重复的列标签或列标签序列，默认所有列标签

keep=‘frist’：除了第一次出现外，其余相同的被标记为重复

keep=’last’：除了最后一次出现外，其余相同的被标记为重复

keep=False：所有相同的都被标记为重复

举例说明：
repeat=operationData[operationData.duplicated([‘手术日期’,’病案号’,”手术医生”])]
print(repeat)
这样就根据手术日期、病案号、手术医生三列查出重复数据了，默认是把后出现的数据标记为重复

二、去掉重复数据：
使用drop_duplicates(subset=None, keep=’first’, inplace=False)
该函数也有keep参数，于duplicates一样，另外该函数还有一个参数inplace，如果是True则直接修改源数据，False则返回一个修改后的副本

ExecuteDataFrame.drop_duplicates([“手术日期”,”手术名称”,”病案号”])#去掉重复记录
该函数返回已经删除重复行记录的dataframe

阅读全文

0 0