Impala004-Impala管理

来源:互联网 发布:淘宝卖切糕 编辑:程序博客网 时间:2024/06/11 23:30
1、监控

1.1  查看catlog
http://host:25020/


1.2 查看statstore
http://host:25010/

2、Impala存储和分区

2.1 文件格式的选择:   对于同样时间的表,不同的的文件格式存储对性能影响很大。如果文件格式支持压缩功能,意味着在实际使用是占用的磁盘空间大大减小,如果读取该表的文件,产生io也小。另外压缩过的数据在查询读取文件时,又需要消耗CPU资源进行解压,需要权衡这样一个过程。

2.2 Impala支持的压缩编码
(1)Snappy 推荐使用的压缩算法,该算法在压缩比和解压速度上实现了很好的平衡。
(2)GZIP期望达到最大压缩比(最少硬盘空间)时推荐,主要以节省硬盘空间为目的。
(3)Deflate 不支持文本文件
(4)BZIP2不支持文本文件 
(5)LZO仅支持文本文件。Impala 可以直接查询 LZO 压缩文本文件表,但目前无法创建该类型压缩表和向该类型压缩表插入数据,需要在 Hive 中执行这些操作。 

2.3 Impala分区
(1) 添加分区
方法1:partitioned by:创建表时,添加该字段指定分区列表
           create table t3(id int,name string,age int) partitioned by (year int);
方法2:使用alter table 进行分区的添加和删除操作
            create table t3(id  int, name  string, age  int )  partitioned by (year int);
(2) 分区插入数据
insert into t3 partition (year=2014) values (1,’zhangsan’,18),(2,’lisi’,23)
insert into t3 partition (year=2015) values (3,wangwu’,22),(4,’zhaoliu’,28),(5,’tianqi’,24)

(3)查询指定分区数据
3.1 查看表结构
 desc formatted t3;
3.2 指定分区查询
$ impala-shell -B  -q 'select id,name,age from shenfuli.t3 where year=2014;' -o r.txt


0 0
原创粉丝点击