大数据量高效率去重复数据
来源:互联网 发布:mysql实用教程 pdf 编辑:程序博客网 时间:2024/06/10 17:27
前提:
表a 字段 id、a1、a2(可以有多个字段,在此为方便只列出3个字段,其中id是主键,因此在一个表中是唯一的)
我的表数据大约是600w左右,最开始我采用的方法特别笨
delete from a where a.id not in(select max(id) from a group by a1,a2);
这种方式效率特别低,结果执行了1.5小时也没有执行完,果断换方法
解决办法:
1、建立一个临时表,将不重复的数据插入里边
creat table temp as select max(id) as id,a1,a2 from a group by a1,a2
2、将临时表中的数据导入到原表中
执行truncate table命令将原来表的数据删除,再用insert into select语句,在此不在赘述
0 0
- 大数据量高效率去重复数据
- 大数据量数据优化
- PHP,日志分析,排序,二维数组去重,计算重复数据,截取--适合小数据量日志
- 如何对数据量8亿的表中数据去重复…
- 如何对数据量8亿的表中数据去重,其中重复的数据是总数据12.5%
- C#实现大数据量TXT文本数据快速高效去重
- 高效率随机删除数据(不重复)
- Oracle 大数据量去重实验
- oracle 删除表中的重复数据(大数据量的表)
- SQL去重复数据
- 数据去重复
- 去重复数据
- 数据去重复
- Hive去重复数据
- 数据去重复
- 取出大数据量CLOB数据
- 大数据量数据删除策略
- 大数据量导出Excel数据
- Android 禁止屏幕旋转 & 旋转屏幕时保持Activity内容
- Facebook拒绝匿名使用“Ask”按钮
- 关于导出String到Excel中的那些事
- FragmentTabHost实现Fragment的tab效果
- adobe reader页面背景色设置 编辑--首选项--辅助工具--文档颜色--自定义颜
- 大数据量高效率去重复数据
- 将博客搬至CSDN
- ImportError: No module named setuptools 解决方案
- 地图API公交线路查询
- 我的c#之路(6.类型转换)
- JAVA安卓开发第二天
- 快速摸清一个行业的基本情况
- 淘宝的行癲时代(上)
- IOS调用相机相册(1)