hive的几种文件格式
来源:互联网 发布:ipad怎么下载软件 编辑:程序博客网 时间:2024/06/11 16:22
hive文件存储格式
1.textfile
textfile为默认格式
存储方式:行存储
磁盘开销大 数据解析开销大
压缩的text文件 hive无法进行合并和拆分
2.sequencefile
二进制文件,以<key,value>的形式序列化到文件中
存储方式:行存储
可分割 压缩
一般选择block压缩
优势是文件和hadoop api中的mapfile是相互兼容的。
3.rcfile
存储方式:数据按行分块 每块按照列存储
压缩快 快速列存取
读记录尽量涉及到的block最少
读取需要的列只需要读取每个row group 的头部定义。
读取全量数据的操作 性能可能比sequencefile没有明显的优势
4.orc
存储方式:数据按行分块 每块按照列存储
压缩快 快速列存取
效率比rcfile高,是rcfile的改良版本
5.自定义格式
用户可以通过实现inputformat和 outputformat来自定义输入输出格式。
总结:
textfile 存储空间消耗比较大,并且压缩的text 无法分割和合并 查询的效率最低,可以直接存储,加载数据的速度最高
sequencefile 存储空间消耗最大,压缩的文件可以分割和合并 查询效率高,需要通过text文件转化来加载
rcfile 存储空间最小,查询的效率最高 ,需要通过text文件转化来加载,加载的速度最低
个人建议:text,seqfile能不用就尽量不要用 最好是选择orc
3 1
- hive的几种文件格式
- hive的几种文件格式
- hive的几种文件格式
- hive的几种文件格式
- Hive-4-Hive的文件格式
- hive的文件格式-RCfile
- Hive的文件格式比较
- Hive的文件格式比较
- Hive的文件格式
- Hive 4种文件格式
- 几种常见图片文件格式的优缺点
- 几种位图文件格式
- Hive文件格式
- Hive文件格式
- Hive文件格式
- Hive文件格式
- Hive文件格式
- hive文件格式
- 斯坦福自然语言组资源
- Spring的事务操作 XML
- 程哥给我上了一堂课
- 机器学习之传统贝叶斯
- 完成端口在MSDN中的专题翻译
- hive的几种文件格式
- 《Unity3D大风暴之入门篇(海量教学视频版)》
- 因为前缀索引问题导致mysql无法使用覆盖索引
- GetKeyState和GetAsyncKeyState的区别
- UVA 10755 - Garbage Heap(三维子矩阵最大和)
- cocos2d-x游戏发布交叉编译成安卓apk(一)环境搭建
- hdu 1087 Super Jumping! Jumping! Jumping!(LIS)
- PDP附着和PDP激活的区别
- POJ 1837 Balance (DP)