从海量数据中找出最小的k个数
来源:互联网 发布:发微博显示mac客户端 编辑:程序博客网 时间:2024/06/10 18:07
从大量(海量)数据中查找最小的k(k一般比较小)个数,这是笔试中常考的题目。 如果是从少量数据中查找最小的k个数据,并且允许修改允许修改原始数据,侧利用Partition()函数,在O(N)的时间复杂度,O(1)的空间复杂度就可以找到最小的k个数据。
从大量数据中查找最小的k个数,我们可以利用一个容器先存储前k个数据,然后从数据中读取下一个数,判断该数是与容器中最大的数的大小,如果该数较大或相等,侧读取下一个数,如果该数比容器中最大数小,侧删除容器中该最大数,将该数放入容器中,然后读取下一个数...
从容器中选择最大的数,可以知道该容器应该是大根堆,或二叉排序树,红黑树。下面是以multiset为容器实现该算法。
#include "stdafx.h"#include <iostream>#include <vector>#include <set>#include <ctime>using namespace std;typedef multiset<int,greater<int>> Set;typedef multiset<int,greater<int>>::const_iterator Set_iterator;void getLeastNumbers(const vector<int> & numbers,Set & leastNumbers,int k){ leastNumbers.clear(); if(k<=0 || numbers.size()<k) return ; for(vector<int>::const_iterator ite=numbers.begin();ite!=numbers.end();ite++) { if(leastNumbers.size()<k) { leastNumbers.insert(*ite); } else { Set_iterator IteratorFirst=leastNumbers.begin();//最大的元素 if(*ite<*IteratorFirst) { leastNumbers.erase(IteratorFirst); leastNumbers.insert(*ite); } } }}int _tmain(int argc, _TCHAR* argv[]){//int a[]={4,5,1,6,2,7,3,8};//int length=sizeof(a)/sizeof(int);//vector<int> numbers(a,a+length-1); srand((unsigned)time(0));vector<int> numbers;for(int i=0;i<100000;i++) numbers.push_back(rand());for(vector<int>::iterator ite=numbers.begin();ite!=numbers.end();ite++)cout<<*ite<<" ";cout<<endl; Set leastNumbers; int k=4;getLeastNumbers(numbers,leastNumbers,k);for(Set_iterator ite=leastNumbers.begin();ite!=leastNumbers.end();ite++){ cout<<*ite<<" ";}system("PAUSE");return 0;}
该算法的时间复杂度为:NlogK,空间复杂度为O(k)。我们不需要一次性将数据全部放入内存,只需从硬盘一次读一个数据到内存即可,但是内存必须够容纳容器(multiset)中的K个数。
- 从海量数据中找出最小的k个数
- 二.用最小堆方法找出海量数据中最小的k个数
- TOP-K排序算法,从海量不重复数据中找出最大/小的K个数
- 从n个数中,找出最小的k个数
- 使用二分法从数组中找出最小的k个数
- 找出一堆数据中最小的K个数问题
- 找出一堆数据中最大或者最小的K个数
- 找出一堆数据中最小的K个数问题
- 找出一堆数据中最大或者最小的K个数
- 海量数据最小k个数
- 找出数组中最小的 K 个数
- 从大量数据中取最小的前k个数
- 找出最小的k个数
- 找出n个数中最小的k个数
- 寻找最小的k个数,处理海量数据的思想
- 最小的k个数--适合处理海量数据
- 求数组中最小的k个数以及海量数据最大堆、multiset解决方案
- 找出一堆树中最小的k个数
- Android TextView行间距,字体间距
- C++中的指针、数组作为参数
- VS2012无法安装cocos2d-x-2.1.4 解决方法及VS2012新建coco2d-x项目(一)
- Sqlite数据库的加密
- Robotium只有apk文件时进行测试
- 从海量数据中找出最小的k个数
- TextView的使用
- C# 配置文件读取与修改
- 外汇短线操作技巧攻略
- Hashmap__h&length-1 原因分析
- iOS中category和extension
- HD1022Train Problem I(栈的运用)
- Non-terminating decimal expansion; no exact representable decimal result
- 显示透明的PNG图片