`

数据仓库结构及特点

 
阅读更多

数据仓库之父的W.H.Inmon将数据仓库定义为:“数据仓库是一个面向主题的、集成的、相对稳定的和随时间的数据集合,用于支持管理决策和商务智能。”数据仓库技术,简单的说,就是将企业内外部的数据进行全面的集成、清洗和整理,去除一些纯事务性的数据,将企业数据按主题放置到一个“仓库”中,然后在次基础上建立各种决策支持的数据为企业服务。基本结构如图1所示:

对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。数据仓库拥有以下四个特点:

    ①面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织,它与传统数据库中的面向应用相对应。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。

    ②集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤。它能够统一原始数据中的矛盾之处,还能够将原始数据结构从面向应用向面向主题转变。

    ③相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

    ④反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

   根据以上的特点,在数据仓库里,数据是在对不同来源的数据抽取、清理的基础上经过系统加上、汇总和整理得到的一个紧密的整体;数据所提供的信息是关于某一特别的主题而不是关于一个公司的日常运营,数据仓库在构建之初就明确其主题,即确定决策涉及的范围和所要解决的问题。数据仓库中的所有数据都由某一个特别的时间段来识别,数据仓库中的数据是相对稳定的,数据仓库中的数据主要供企业决策分拆之用,一旦某个数据进入数据仓库一般被长期保留,修改和删除操作很少,通常只需要定期的加载、刷新,这使得管理人员能获得一幅关于商务的一致的画面。

    数据仓库的一个重要作用是为决策者提供必要的智能,促进决策者更好的理解商务危机、商务机会和运营状况。在决策支持过程中,数据仓库主要有四个流程:整合、执行、智能和创新,如图3所示。

 

 

(2)数据仓库和数据集市

    数据集市(Data Marts)是为了特定的应用目的或应用范围,从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据,通常服务于单个部门或企业中的部分用户。按照业务的不同可以分为财务、销售、市场等多个数据集市,每个数据集市只包含特定领域内的数据。数据仓库和数据集市的比较如表1所示。

表1 数据仓库与数据集市比较

 

关于构建数据仓库和数据集市先后顺序,有两种截然不同的学术观点,Ralph Kimball认为“数据仓库仅仅是构成它的数据集市的联合”,而Inmon认为只有在构建几个单主题区域之后,集中式的数据仓库才能创建数据集市。实际上,方法的选择取决于项目的主要商业驱动。如果该组织正忍受糟糕的数据管理和不一致的数据,或者希望为今后打下良好的基础,那么Inmon的方法就更好一些。

    如果该组织迫切需要给用户提供信息,那么Kimball的方法将满足该需求。而一旦满足了迫切的信息需求后,就应该考虑包含独立数据仓库的数据体系结构的转换计划。特别需要注意的是个别部门要防止滥用Kimball的方法而脱离集中控制。

    (3)数据抽取、转换、装载数据抽取、转换、装载上具(Extract Transform.Load.ETL)是数据仓库的重要组成之一,它是把数据从不同的操作型数据库、业务部门和企业外部数据库中拿出来,进行必要的转化、整理,再以统一定义的格式存放到数据仓库内。它首先对数据进行筛选,去掉对决策没有意义的数据段,然后将数据转换成统一的数据名称和定义,计算统计和衍生数据:估计遗失数据的缺省值。数据抽取、转换与装载过程的目的在于把来自各个不同平台的数据合并到决策支持环境下的商务智能目标的数据仓库的标准格式中去。数据抽取工具能对各种不同存储方式的数据访问,应能生成不同程序、作业控制语言、脚本和语句等,以访问不同的数据。

 

 

  • 大小: 14.5 KB
  • 大小: 11.1 KB
  • 大小: 19.4 KB
  • 大小: 27.4 KB
分享到:
评论

相关推荐

    数据仓库数据分层结构

    数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。 数据仓库 ,由数据仓库之父比尔·恩门...

    本书论述在设计和建造数据仓库中涉及的所有主要问题,论述分析型环境(决策支持系统环境)以及在这种环境中的数据构造。主要内容包括数据仓库的设计与建造步骤,传统系统到数据仓库的迁移,数据仓库的数据粒度、数据分割、元数据管理、外部数据与非结构化数据,分布式数据仓库、高级管理人员信息系统和数据仓库的设计评审等。

    主要内容包括数据仓库的设计与建造步骤,传统系统到数据仓库的迁移,数据仓库的数据粒度、数据分割、元数据管理、外部数据与非结构化数据,分布式数据仓库、高级管理人员信息系统和数据仓库的设计评审等。...

    数据仓库,数据仓库入门

    2.1 数据仓库的结构 22 2.2 面向主题 23 2.3 第1天到第n天的现象 26 2.4 粒度 28 2.4.1 粒度的一个例子 29 2.4.2 粒度的双重级别 31 2.5 分割问题 34 2.6 样本数据库 34 2.7 数据分割 35 2.8 数据仓库中的数据组织 ...

    数据仓库设计说明书

    2.1 数据仓库的结构 22 2.2 面向主题 23 2.3 第1天到第n天的现象 26 2.4 粒度 28 2.4.1 粒度的一个例子 29 2.4.2 粒度的双重级别 31 2.5 分割问题 34 2.6 样本数据库 34 2.7 数据分割 35 2.8 数据仓库中的数据组织 ...

    数据仓库与数据挖掘技术

    第3章介绍数据仓库结构及其创建,包括数据仓库数据库、事实表、维度表及多维数据集创建;第4章介绍数据仓库开发完整过程,包括项目系统规划、用户需求确定、系统分析、系统设计、系统实现、系统试用及扩充;第5章...

    数据仓库教程.rar

    8.1 数据仓库中的外部数据/非结构化数据 157 8.2 元数据和外部数据 158 8.3 存储外部数据/非结构化数据 159 8.4 外部数据/非结构化数据的不同 组成部分 160 8.5 建模与外部数据/非结构化数据 160 8.6 ...

    数据仓库初阶 概念 特点 结构

    数据仓库初阶 数据仓库的概念 数据仓库的特点 数据仓库的结构

    数据仓库的概念及特点

    要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。 <br> ⑶数据的表现:数据表现实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。而多维...

    s数据仓库资料数据仓库资料

    主要内容包括数据仓库的设计与建造步骤,传统系统到数据仓库的迁移,数据仓库的数据粒度、数据分割、元数据管理、外部数据与非结构化数据,分布式数据仓库、高级管理人员信息系统和数据仓库的设计评审等。...

    数据仓库、数据挖掘、建模

    根据该定义,数据仓库具备以下四个关键特征: 1.1 面向主题(Subject Oriented)的数据集合 数据仓库通常围绕一些主题,如“产品”、“销售商”、“消费者”等来进行 组织。数据仓库关注的是决策者的数据建模与分析...

    数据仓库(原书中文第四版)

    2.1 数据仓库的结构 22 2.2 面向主题 23 2.3 第1天到第n天的现象 26 2.4 粒度 28 2.4.1 粒度的一个例子 29 2.4.2 粒度的双重级别 31 2.5 分割问题 34 2.6 样本数据库 34 2.7 数据分割 35 2.8 数据仓库中的数据组织 ...

    Teradata 数据仓库基础

    1.3 数据仓库系统的查询特点 3 1.4 详细数据与小结数据(DETAIL DATA与SUMMARY DATA) 5 1.5 数据仓库与数据集市(DATA WAREHOUSE与DATA MART) 7 1.6 TERADATA的出现 10 1.7 如何衡量数据仓库引擎 11 1.7.1 TPC-D 12 ...

    数据仓库介绍,应用

    数据处理的分类 数据仓库历史、概念及特点 数据仓库系统的体系结构 数据仓库应用

    金融数据仓库中ETL的设计与实现

    摘要:本文首先介绍了ETL的相关技术:数据仓库的体系结构和元数据的定义;然后分析了金融数据的特点和ETL技术在金融数据挖掘中的应用;再根据金融数据的特点,对金融数据的ETL进行了分析。接着结合ETL与数据仓库的关系...

    数据仓库系统的体系结构.doc

    体系结构 数据源 是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信 息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各 类法律法规、市场信息和竞争对手的...

    第二代数据仓库展望

    与第一代数据仓库相比,第二代数据仓库有以下特点: (1)数据仓库的生命周期 (2)数据访问模式 (3)结构化与非结构化数据 (4)元数据的重要性和作用开始得到认可

    北京中科信软数据仓库培训

    数据仓库的特点 数据仓库的开发特性 数据仓库与决策支持系统 数据仓库与数据集市 定义数据仓库的商业和逻辑模型 讨论企业级的策略分析工作 定义商业模型的各个部分 讨论数据仓库中元数据所扮演的角色,及追踪...

    数据仓库学习总结(基础)

    数据仓库个人总结的内容,适合初学者。(定义、特征、数据组织结构等)

    矿山企业数据仓库建设初探

    针对目前矿山企业数据的特点,文中对构建矿山企业数据仓库的信息流程和系统架构进行了...从矿山企业的生产管理数据入手,设计了矿山数据仓库的框架结构,使其既满足空间数据仓库的特点又满足各种分析和高层决策的需要。

    数据仓库入门资料详解

    数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。

Global site tag (gtag.js) - Google Analytics