15分钟了解Phoenix
来源:互联网 发布:mac office下载 编辑:程序博客网 时间:2024/06/10 00:13
关于Phoenix:
- OLTP and operational analytics for Apache Hadoop
- Phoenix is an open source SQL skin for HBase.
- We put SQL back in NoSQL
- Phoenix is relational layer over HBase
以下部分翻译自:https://phoenix.apache.org/Phoenix-in-15-minutes-or-less.html
Phoenix是什么新东西?
Phoenix为HBase穿上一层SQL的外衣。所以你可以使用标准的JDBC API来创建表、插入数据、查询HBase中的数据,而不是使用常规的HBase客户端API。
在HBase和应用程序之间额外加入一层(Phoenix)会影响性能吗?
不会。跟原生的HBase客户端相比,Phoenix性能一样好甚至更好,主要通过以下方式:
- 将SQL查询编译成原生的HBase scan操作。
- 优化scan key的开始和结束位置
- 规划scan操作的并行
- 把计算移到数据节点
- 将where语句转化为服务端的过滤
- 聚合操作通过服务端的钩子来完成(co-processor)
除此之外,我们还做了一些工作使得性能得到一些有趣的提升:
- 使用二级索引提高非row key的查询
- 收集统计信息用于改善并行及优化决策
- 使用skip scan优化IN、LIKE、OR查询。
- 对row key进行加盐,使得写负载分布更均匀
Phoenix很快,但是为什么是SQL?
基于“使用人们熟悉的方式”,有什么方式可以使得HBase更容易使用吗?用JDBC和SQL:
- 减少代码量
- 对用户屏蔽行那你优化的细节
- 方便与现有其他工具集成
但是SQL如何能够支持我最喜欢的HBase特性x,y,z?
你一定没有关注最近的HBase Meetup吧? SQL表达的是你想要什么样的数据,而不是如何获取数据。(注:声明式和过程式)。 查看我的演讲PPT,获取Phoenix目前支持的以及计划支持的HBase特性。我们期待得到反馈,提交issue或者加入我们的邮件组.
说了那么多,我只想开始动手!
好的,跟着按照我们的安装教程:
- 下载并解压tar安装包
- 复制相应版本的phoenix 服务端jar包到每一台HBase region server的lib目录
- 重启region server
- 添加phoenix 客户端jar包到你的HBase客户端。
- 下载并设置SQuirrel作为你的SQL客户端,你就可以在你的HBase集群上执行adhoc SQL查询。
我不想下载和配置任何东西
没问题,你可以创建你自己的SQL脚本,并使用给我们的命令行工具执行脚本。让我们看一个例子。进入phoenix安装目录中的bin目录。
- 首先,创建us_opulation.sql文件,包含一个表的定义:
CREATE TABLE IF NOT EXISTS us_population ( state CHAR(2) NOT NULL, city VARCHAR NOT NULL, population BIGINT CONSTRAINT my_pk PRIMARY KEY (state, city));
- 创建us_population.csv文件,并放入以下数据:
NY,New York,8143197CA,Los Angeles,3844829IL,Chicago,2842518TX,Houston,2016582PA,Philadelphia,1463281AZ,Phoenix,1461575TX,San Antonio,1256509CA,San Diego,1255540TX,Dallas,1213825CA,San Jose,912332
- 最后,创建查询脚本us_population_queries.sql:
SELECT state as "State",count(city) as "City Count",sum(population) as "Population Sum"FROM us_populationGROUP BY stateORDER BY sum(population) DESC;
- 从命令行执行以下命令
./psql.py <your_zookeeper_quorum> us_population.sql us_population.csv us_population_queries.sql
恭喜你,你已经创建第一个Phoenix表,插入数据并执行查询,而你只花了15分钟左右的时间写了几行代码。
还有什么其他的呢?
你可已使用bin/perfoemance.py脚本创建任意多的数据,然后在上面做一些查询。
为什么叫做Phoenix?是不是其他项目挂了然后这是它的下一代?
很抱歉,我们没有时间和空间了,只能等到下次回答这个问题。
1 0
- 15分钟了解Phoenix
- 15分钟了解Apache Phoenix(HBase的开源SQL引擎)
- 15分钟了解Apache Phoenix(HBase的开源SQL引擎)
- phoenix 一点了解
- 15 分钟全方位了解 JS 的继承
- 5分钟了解Mockito
- 十分钟了解TOGAF
- 十分钟了解MongoDB
- 十分钟了解pandas
- 三分钟了解红黑树
- 5分钟了解Mockito
- 5分钟了解Mockito
- 6分钟了解辐射
- 5分钟了解Mockito
- 5分钟了解mockito
- 三分钟了解mongodb
- 5分钟了解Mockito
- 一分钟了解mongodb
- dba基础课程-linux操作系统:系统信息命令
- HTML表单的类型和使用方法
- MQTT协议
- (swift)UICollectionView方法/属性详解
- Android View系统源码分析(七)—— View.refreshDrawableState()
- 15分钟了解Phoenix
- 欢迎使用CSDN-markdown编辑器
- BigDecimal
- 计算机原理(四)
- 文章索引-winform
- ubuntu12.04重装Erlang记录
- Spring3.2新注解@ControllerAdvice
- 图片上传预览功能
- h5实现拍照上传