Pandas学习笔记之重复数据统计

来源:互联网 发布:java语言和c语言 编辑:程序博客网 时间:2024/06/02 09:50

在医院统计计算绩效数据,通过在网上搜索,发现Pandas确实在数据处理确实快。本文章持续更新和更改,只供自己学习使用

一、重复数据查询:

Pandas提供duplicated函数标记重复

pandas.DataFrame.duplicated(self, subset=None, keep=’first’)

subset:用于识别重复的列标签或列标签序列,默认所有列标签

keep=‘frist’:除了第一次出现外,其余相同的被标记为重复

keep=’last’:除了最后一次出现外,其余相同的被标记为重复

keep=False:所有相同的都被标记为重复

举例说明:
repeat=operationData[operationData.duplicated([‘手术日期’,’病案号’,”手术医生”])]
print(repeat)
这样就根据手术日期、病案号、手术医生三列查出重复数据了,默认是把后出现的数据标记为重复

二、去掉重复数据:
使用drop_duplicates(subset=None, keep=’first’, inplace=False)
该函数也有keep参数,于duplicates一样,另外该函数还有一个参数inplace,如果是True则直接修改源数据,False则返回一个修改后的副本

ExecuteDataFrame.drop_duplicates([“手术日期”,”手术名称”,”病案号”])#去掉重复记录
该函数返回已经删除重复行记录的dataframe

原创粉丝点击