数据源—商务智能的来源

来源:互联网 发布:贪心算法加油站问题 编辑:程序博客网 时间:2024/06/10 15:08

数据源—商务智能的来源

 

事前计划是个好主意,诺亚在建方舟的时候没有下雨。

关键字:

事务数据:transaction data

事务数据是已存储的用来跟踪一个组织所完成的交互活动的信息。

联机事务处理:OnLine Transaction Processing, OLTP

联机事务处理系统在业务交互行为发生时对其进行记录,OLTP支持着组织的日常运行。

聚合:aggregate

聚合是一个由多条明细记录的数额计算得出的数字。

数据集市:datamart
数据集市是电子仓库中存储的大量的历史数据,它们不参与组织的日常运作。

数据加载:dataload

数据被定期的从OLTP系统中复制过来,然后写入数据集市,这个过程就叫做数据加载。

数据清洗:

数据清洗会从事务数据中去除不一致和错误,从而使数据具有数据集市应用所需的一致性。

提取、转换盒加载:ETL

提取、转换和加载(ETL)过程会从一个或多个OLTP系统中提取数据,执行任何必须的数据清洗过程,从而将数据转换成一致的格式,然后将清洗的数据插入到数据集市中完成加载。

商务智能所使用的数据分为四类:度量,维度,属性和层次结构。

度量:measure

度量是一个用来表达组织某方面效能的数值型的量值。该量值所代表的信息用来支持或者评估组织的决策和能效。度量也被称为“事实”。

维度:

维度是一种用来将聚合度量展开以揭示其组成部分的分类方法。

在SQLServer中维度被称为立方体(cube),被译为“多维数据集”。

星型构架:

星型构架是一种用于保存数据集市中的度量和维度的关系数据库构架。度量存储在事实表中,维度存储在维度表中。星的中间是事实表(+fact),并且是由所有周围维度表(dim+)的主键组成的复合主键构成。

属性(attribute):属性是维度成员的额外附属的信息,它既不是成员的唯一标识符,也不是成员的描述信息。在维度表中,属性会作为附加列存储。

层次结构:hierarchy

层次结构是一种由两级或者更多级相关维度构成的结构。在层次结构中,上级维度完全包含了下一级中的一个或者多个维度。在星型架构中,层次结构的相关信息就存储在几个维度表中,每个维度表的主键处于层次的最低一级。

雪花架构:snowflake schema

在雪花架构中,只是层次结构的每一级单独存储在一个维度表中。雪花构架的中心也是事实表,事实表的每个外键都指向了各个层次结构的最低一级。雪花构架具备优秀的关系设计的所有优点,它不会产生重复数据,也易于维护。

雪花构架的缺点:在层次较高级聚合度量时,必须进行一定数量的表链接。在较大或者使用频繁的数据集市中,这可能会导致性能问题。


无论是星型构架还是雪花构架,在需要每个维度非最低一级的数据时,系统都必须进行即时的聚合计算。解决方案之一是将每一级的度量都计算好,存储在数据集市中。

 

2013年11月25日 星期一

 

 


原创粉丝点击