hadoop 权威指南 HBase

来源:互联网 发布:淘宝卖家降权查询 编辑:程序博客网 时间:2024/06/10 23:49

Hbase原理、基本概念、基本架构


应用将数据储存在带标签的表中,表的单元格是行和列坐标的坐标交集,他们有版本号。在默认情况下版本号是单元格插入时Hbase自动分配的时间戳。表的单元格内容是一个未解释的字节数组

表行的键也是字节数组。行键是表的主键,被用来对表行进行排序

表行的列分组,形成列族(column families)。列族对象的前缀相同。列族必须在表架构时被声明定义,但是列族成员是可以按需要新增的。

物理上:所有列组成员在文件系统中被储存在一起,因为,Hbase是一种面向列族的存储。


与RDBMS的区别:版本号、对行排序、列族成员动态增加


表被划分为域(region),每个域包含所有行的一个子集。域=第一行~最后一行+域标识

域的数量从一个开始,随着域的扩大到超过设定的阈值,划分为大小差不多的两个域。域是分散在HBase集群上的单元


行的更新是原子的。


HBase由一个主节点(master)协调一个或多个区域服务器(region server)子节点组成

主节点:引导初始安装、分配区域给已注册的区域服务器、恢复区域服务器的故障。

区域服务器:服务0~多个区域。响应客户端的读写请求、通知主节点分裂新区域的信息。

HBase依赖ZooKeeper



HBase通过Hadoop文件系统的API进行数据维护。默认使用本地文件系统。第一次配置HBase是需要指明使用的HDFS集群


0 0
原创粉丝点击