大数据动物园-驯服野兽

来源：互联网发布：免费域名是什么编辑：程序博客网时间：2024/06/10 07:35

大数据动物园-驯服野兽

大数据可能是信息应用领域的最大趋势，它改变了企业做业务、做决策的方式。利用信息和智能分析技术从变化中获取预测和利润。这使得IT从传统技术之外寻找新的工具去处理3V(volume, velocity, variety)数据。

不过，聚焦于大数据而往往忘记一点就是数据无论是大是小都是数据。在企业级进行管理和集成来提取它的全部价值并保证它连续一致的使用。驯服大数据的关键就是获取这个价值。三种常用的方式如下：

1. 在大数据中获取最大价值的基础是针对包括大数据和传统事务在内的所有信息的技术多样性和深度集成的平台。

2. 企业级方法，即平台、产品和流程是保证大数据长期质量和使用必不可少的，以此与BI和其他系统的现存数据保持一致。

3. 大数据项目的快速部署需要尽早利用新兴的业务机会并且增量的将大数据能力引入到当前围绕数据仓库的数据管理框架。

驯服大数据野兽是数据管理向前的一大步。

如果大数据是一头大象，但绝不仅仅是Hadoop而是不断增加的各种类型的业务数据。出去技术新颖，大数据跟其他数据一样。它必须在企业级适当管理和使用以带来显著的业务价值和长远影响。

盲人摸象-观察大数据情景

六个盲人通过感触大象的不同部位得出大象是什么，这个故事正是在描述当前围绕大数据的市场形势。每位使用者和提供者分别观察和描述他们接触到的那一部分大数据，当然并不指他们使用的工具和他们期望的市场。所有结果是不一致的，因此我们需要加以理清。

根据IDC，存储和处理的信息量以每年50%增长。出去Volume、Velocity、Variety，IBM引入 Veracity，即需要信任为战略和操作决策提供的数据。一些分析人士增加了更多的V-，如Variability、Value、Virality、Validity和Viscosity。这些定义要么不可信要么不一致。事实上，模糊（Vague）可能是最为恰当的V-，其他的对特定度量均不可行。因此，如何平实的回答这个简单的问题：大数据适合我吗？

最简单的方式，即由市场早期所采纳的，看到大数据的商业用途就考虑自己如何去使用。而这种方式是无法达成的因为更多创新应用被发现。尽管如此，如果你的业务遵从下述一个或若干说明，大数据将对你是很重要的。

1. 市场利用社会媒体内容和关系信息以及从客户互动比如呼叫中心log到更加深入理解客户动机获得的内在信息。在零售、批发和电信业都存在与大量客户的直接或间接交互，这使得分析从样本到全数据集，从人口片段到整个市场，从历史数据的长期趋势到对新兴事件近乎实时的反应。最终目标是预测客户行为推荐行为的产出。

2. 由执行时间短、数据量小的众多事务积累起来的大数据进行欺诈检测和检查财务数据其他的不规范。在磁盘上对流数据排序之前或没有进行排序的大数据分析技术已然成为常规。

3. 实时预测可能成为一项功能，比如水电供应和电信，利用普遍存在的传感器技术和大数据处理技术将消费的统计由macro-转为micro-。消费的高峰值和低估值可以被预测并可以影响消费者的行为。

4. 跟踪制造、生产和流通中的实体项目，从食品到日常应用，从包裹邮寄到集装箱运输。通过分配、使用甚至布置都会带来业务流程优化并提高客户体验。人们也倾向于追踪监督的业务原因。

5. 通过创新使用自动收集的可能重构整个行业的数据可以彻底改造业务流程。比如，汽车行业基于实际行为而不是统计上的平均风险可以获得加价。

也存在一些被所谓专家集中于自己对大数据认识的部分得出的错误认识。

大数据不仅仅来自如Twitter和Facebook这样的社会媒介。这类数据是重要的，但大多来自操作系统传统记录和BI度量的实际客户和业务事务。类似的，仅考虑自动收集的来自互联网的增长数据而忘记使用和分析应用于现存或重构业务流程的数据。利用多个工具集成多数据源，包括传统的和新的是首要的必要条件。对所有数据，不论大数据还是小数据的良好集成对从信息中提取业务价值是必要的。

这里存在一个想法，就是大数据可以或者应该替代关系数据库或EDW，这是极限简化。事实上，大数据技术是对来自DBS批处理的现存技术的扩展和集成。比如，Hadoop基本上是并行批处理大文件的系统。关系数据库和支持工具集中于系统信息管理、数据一致性及其他，相反的，大数据技术强调处理速度、schema灵活性和大数据量这些性能特征。

今天先进的业务流程需要有一系列特征。一些任务需要灵活性、宽松的限制和创新的方法；而另一些则需要确定性、有限范围并遵守约束。业务流程围绕在数据处理的传统系统能力之外的复杂性的阈值，但不为3V特征的大数据简化试图所支持。我们需要支持两者的企业级平台和工具。

为定义平台，必须认识到我们快速从单一类型数据主宰的世界转为三种类型数据构建的世界。

大数据，小视图

在基础层面，我们需要在观念上对信息领域构建一个新的情景并且拥有三个相区别但深度关联的domain。

1. 人力资源信息Human-sourced information：人是所有信息的最终源头，这是我们个人经验的主观记录。以前记录于书本、艺术而后来是照片、音视频，现在则是数字化并电子化存储于任何地方。这些信息是非结构化的，甚至不能以实体表达，特别是针对业务。比如，结构化和标准的模型要求对事实定义一致的版本。我们将流程间接数据转化为人力资源数据有多种方式，最基本的方式是系统中的数据记录。

2. 流程间接数据Process-mediated data：每一项业务和组织基于流程运转并监控业务事件，比如注册客户、制造产品和接收订单。数据包括事务、引用表和关系以及元数据，均为高度结构化的。传统上，流程间接数据占IT管理和处理的绝大部分数据。它的高度结构化和规范形式非常适合实现信息管理、维护数据质量等。

3. 机器产生的数据Machine-generated data：我们变得越来越独立于机器去度量、记录事件和条件。机器产生的数据是良好结构化的，从简单记录到复杂日志都可以高度表达为实体。成为许多业务存储、处理信息的日益重要的组件。这部分数据量日益增加尽管它的结构非常适于计算机处理，它的大小和速度高于传统方式比如EDW。

这三种domain的相对大小和可接受的重要性在过去不断转变而且将继续转变。直到2000，流程间接数据Process-mediated data占主导地位，其他两种数据量小且并不重要。过去十年，大数据被发掘，由人力资源数据Human-sourced information和机器产生的数据Machine-generated data组成，而流程间接数据不再引人注目。互联网的日益成长将使得机器产生的数据变大极大并日益重要。

不过，如下图所示，力资源数据Human-sourced information和机器产生的数据Machine-generated data最终来自于流程间接数据Process-mediated data，尽管只有少量、良好定义的数据集流过传统的业务流程层。这些数据比传统流程间接数据更加灵活且及时。事实上，产生流程间接数据的业务流程被设计为减少灵活性和及时性而确保结果数据的质量和一致性。这常见于EDW的流程中，而存在于数据清洗和检验流程中。

human-sourced information和machine-generated数据比process-mediated数据要大得多并且变化很快。将他们复制且转换为传统的process-mediated domain日益不切实际。因此，特殊的技术，business analytics，被经常要求用于处理和探测human-sourced information和machine-generated数据。但是，同等重要的是将process-mediated数据和相关元数据流入分析环境创建有意义的、上下文相关、与分析流程紧密相关的分析环境。实质上，大数据和业务分析完成闭环信息处理。

三层信息模型的实际含义是明显的并范围广泛：

大数据处理，无论利用什么技术，依靠传统的process-mediated数据和相关元数据为全面有意义的使用创建上下文和一致性。

大数据处理的结果必须反馈给传统业务流程来改变和提升业务。

一个全面、条理清晰的环境，包括集成平台和企业范围的组织对成功实现是必要的。

大数据变得更加普遍，对业务和IT的挑战从先前依靠process-mediated数据的实现转为包括更为有关现实世界的成熟、可变类型的信息。理解并工作于三种信息域的关系是在业务中安全、有效使用大数据的基础。定义和管理这种关系并使得这三种类型的信息在业务中平等安全的使用需要一个集成信息平台。

针对所有信息类型的集成平台

数据仓库工程师开发大数据流并创建一致业务信息的池。EDWs和相关企业数据管理环境比如MDM主数据管理系统是良好管理和配置process-mediated数据的资源库。相对而言，在科学领域和具有强大工程背景的互联网公司的大数据运动的发起已导致基于开源技术和订制编程的方法，更少关注数据质量，更多注意适应性、扩展和速度。今天业务需要一系列属性，一个不能取代另一个。

集成平台如下图，必须有一些数据库和分析技术构成。每一个优化一特定类型的流程和访问称为pillar，由他们支持的业务角色命名。

1. 中间的core business data pillar是在EDW和MDM中一致的、高质量的数据。传统关系数据库，DB2是基本技术。经常存储在EDW的特定应用报表和决策支持数据现在被排除了。

2. Core reporting and analytic data，覆盖后面的数据类型。从技术方面看，此pillar也是关系数据库。数据仓库平台比如InfoSphere Warehouse、Smart Analytics系统和新的PureData System作用于此。业务需要很高的查询性能将要求构建在MPP、列式数据库或其他特定技术上的分析数据库系统。

3. Deep analytic information要求更灵活性、大规模处理。比如在Hadoop环境下的统计分析和文本挖掘。

4. Fast analytic data要求快速分析处理，它必须在数据运行中完成。这部分数据经常来自多个数据源需要为实时分析和制定决策进行接近零延迟的聚合和一致性分析。

5. 综合速度和灵活性，我们需要specialty analytic data ,用于针对NoSQL、XML、图像和其他数据库和数据存储的特殊处理。在上图中它出现两次因为它应用于machine-generated 数据和human-sourced information。

如图所示这些pillar分布于三种信息域中并将传统的记录操作系统列入平台的中心。平台的中心pillar与传统的数据仓库架构紧密相连，不同于数据集市的数据用于报表。数据会而且经常应该直接来自于操作型系统。

元数据，从概念上作为所有类型信息的背景，是定义信息上下文和能够适当管理的新架构的中心。在process-mediated和machine-generated域，元数据被明确的单独存储，在human-sourced information域隐含于信息自身。这要求在此平台上要用新方法来对内外数据源和它们内在关系进行建模、发掘和可视化。

从功能角度看，我们可以看到数据集成如平台内（黑箭头）的数据移动、复制、清洗和约束以及数据可视化（橙色连接线）。当然，元数据在各种功能中也扮演关键角色。数据集成，也称为ETL适用于数据仓库构建并集成信息平台中扮演相同角色。

从另一方面看，数据可视化是数据仓库力求纯粹的咒语。不过不像长期建立的EDW架构，它通过单一物理存储所有的数据流，集成信息平台即为一系列相关存储，通过核心业务数据和元数据从逻辑上实现统一。数据可视化为用户和应用提供通过语义层对不同技术、不同地点的数据进行访问。提供业务导向的信息视图，隐藏技术复杂性并完成多数据源的连接。

业务分析和管理工具包括你期望的所有功能，包括探测、可视化和发现以及应用开发、系统管理等。Business analytics涉及大数据使用和传统BI功能。

在最大的范围内，集成信息平台包含由企业产生和使用的全部数据。信息最终来自于通过人与机器之间、内部与外部之间以及和其他组织产生的业务交互，如上图所示。事件Event一般由机器和传感器记录的。消息Communication来自人之间的交互。事务Transaction是业务最终交互的子集，事务对业务非常重要。他们都是核心业务数据的主要来源。Events和Communications不要求过多的数据保证所以可以直接载入系统并分析他们。

集成信息平台的构建

尽管平台的全部范围是广大的，但实际上已存在部分或若干部分。构建综合EDW，开始于已有系统来构建集成信息平台从而在大数据中交付价值。我们可以利用平台的若干关键利益：

在合适的地方重用已存在的数据和环境

敏捷引进需要的新技术

在环境之间保持信息含义和使用的一致性

提高现存技术投入产出和价值的时间

如果从web中获取的human-sourced information得到商业价值，根据Hadoop构建sandbox环境将产生良好效果。从技术上看，Hadoop与现存BI系统紧密结合使得信息分为两步流转，关于客户和产品的关键业务数据进入Hadoop环境用于分析，分析任务产生的汇总数据进入BI系统产生报表和决策支持流程。

如何保证新技术很好的集成到现有的团队，一个好办法就是组件2-3人的团队，一名来自业务，一名理解分析，还有一名来自IT团队的IT专家，他可以访问EDW里的数据并将之集成到新的大数据技术里。

当你想增加额外的业务需求和增加新功能，平台的优势很快就表现出来，重用信息架构和数据源。相同的数据集成和元数据将在平台的不同部分使用。质量保障将提高数据质量产出，业务用户将扩大对不同类型数据的访问，通过一些通用工具可以获得更加一致性的使用和更高层次的上下文含义。

实现集成信息平台，根据先前经验，以递增方式在每一步交付业务收益。