Pandas学习笔记之重复数据统计
来源:互联网 发布:java语言和c语言 编辑:程序博客网 时间:2024/06/02 09:50
在医院统计计算绩效数据,通过在网上搜索,发现Pandas确实在数据处理确实快。本文章持续更新和更改,只供自己学习使用
一、重复数据查询:
Pandas提供duplicated函数标记重复
pandas.DataFrame.duplicated(self, subset=None, keep=’first’)
subset:用于识别重复的列标签或列标签序列,默认所有列标签
keep=‘frist’:除了第一次出现外,其余相同的被标记为重复
keep=’last’:除了最后一次出现外,其余相同的被标记为重复
keep=False:所有相同的都被标记为重复
举例说明:
repeat=operationData[operationData.duplicated([‘手术日期’,’病案号’,”手术医生”])]
print(repeat)
这样就根据手术日期、病案号、手术医生三列查出重复数据了,默认是把后出现的数据标记为重复
二、去掉重复数据:
使用drop_duplicates(subset=None, keep=’first’, inplace=False)
该函数也有keep参数,于duplicates一样,另外该函数还有一个参数inplace,如果是True则直接修改源数据,False则返回一个修改后的副本
ExecuteDataFrame.drop_duplicates([“手术日期”,”手术名称”,”病案号”])#去掉重复记录
该函数返回已经删除重复行记录的dataframe
阅读全文
0 0
- Pandas学习笔记之重复数据统计
- 从零开始学Python学习笔记---之--pandas数据框(1)
- 从零开始学Python学习笔记---之--pandas数据框(2)
- 从零开始学Python学习笔记---之--pandas数据框(3)
- pandas 数据统计
- pandas 学习笔记-- 数据清洗和转换
- 数据分析之Pandas(三):汇总、统计、相关系数和协方差
- Python数据分析之pandas学习
- Python数据分析之pandas学习
- Python数据分析之pandas学习
- Python数据分析之pandas学习
- Pandas学习笔记之操作Excel
- Pandas学习笔记之列操作
- Pandas学习笔记之合并操作
- python 之 pandas 学习笔记--read_excel()
- Pandas学习笔记:pandas基础
- python之pandas分组统计
- pandas 学习笔记
- UOJ 2017NOI Round #2 T1:UOJ拯救计划(排列组合)
- Android 布局文件中的values-v11,values-v14,values-v19代表的含义
- js判断客户是用pc,android,还是ios,登录实现
- TP5 提示Namespace declaration statement has to be the very first statement in the script
- yyyyMMddHHmmss转变为日期格式
- Pandas学习笔记之重复数据统计
- tee driver 对共享内存的管理
- Nginx 单机百万QPS环境搭建
- 西江月·笙歌散后酒初醒
- 堆内存和堆外内存(又名直接内存)比较
- Hadoop实现K_means聚类算法(对NBA球队进行聚类分析)
- Clipboard.js 复制内容到剪切板 ,不用Flash
- Javascript获取select下拉框选中的的值
- 数据库简单应用补充