[原创]数据仓库的由来
本文是阅读《企业数据仓库 规划建立与实现》一书的笔记。作者Eric Sperley,在第一章《信息技术简史》中,讲解了企业对信息的渴求以及IT提供信息的进展。其中,精彩精准的指点俯拾皆是,特成此文,详加记述。
“ 世界的历史是一门对事业进行投资以产生更多财富的学科。[P2]”作者以此角度向我们展示了信息的价值。在农业时代,人们在土地上投资,以产生更多财富; 工业革命之后,生产物品的能力变得比钱更重要,人们开始投资于工厂;而如今,人们更懂得使用信息来获得金钱或节省金钱。数据仓库就是一种增加利润的信息系 统,可以用来减少费用、避免将来的花费或通过为公司决策人员提供信息以增加收入。那么,数据仓库到底是什么呢?它又是如何发展而来的呢?
“企业运行部门进行信息系统的开发导致了信息筒仓(Silo)或信息井(Well)等计算机系统的开发。这些系统可以提供公司特定部门中的详细数据,但是它们不能从公司其他部门中集成信息。因为没有关于公司状况的单一、集成的数据源,所以很难(如果不是不可能的话)通过查询这些筒仓得到公司的全貌。[P5]”
“ 对于不同数据筒仓中看似相同的数据的迥然不同的定义,给公司用户和IT社区造成了巨大的混淆。商业专业人士认为IT专业人士不对,因为对于相同数量应该产 生相同数字的两个不同报表却得出了不同的数字。尽管人们的第一个想法可能是IT部门不能胜任其工作,或公司同事的沟通不够直接,但是通常情况并不是这样。 报表上的数字是使用不同源系统中的不同数据计算得到的。这种情况的结果是公司花费了大量的时间在数据一致性上,而只花费了很少的时间对数据进行操 作。[P8]”产生混淆的根本原因是,分离的信息筒仓在单独建设过程中未经规划和未经结构化。更不用说,历史数据与当前数据的可比性,内部数据与外部数据 的整合性等等问题。所有这一切最终将导致,公司被一个个信息孤岛所割裂,大量资源被用于维护分散的信息筒仓,决策者面对不完整、甚至是相互抵触的数据做出 不恰当的决定。
为了解决未经规划的数据环境造成的严重问题,并满足支持经营决策的需求,数据仓库应运而生。很多人都为数据仓库这一思想的出 现作出了贡献,但是大家公认1993年,William H. Inmon在其《Build the Data Warehouse》一书中对数据仓库的定义:“一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理层的决策过程。”
- 面向主题(Subject Oriented)意味着数据仓库设计成提供与公司单个领域相关的数据。
- 集成性(Integrated)意味着数据仓库将从多个源系统抽取数据,然后经过清洗,再将一致、完整的数据导入。
- 非易失性(Non-Volatile)是指一旦数据加载到数据仓库之后,它就不能被改变。
- 随时间变化(Time Variant)是指数据仓库既保存当前数据,也保存历史数据。
数据仓库与以筒仓形式存在的运行系统有以下区别:
数据仓库常被用于以下领域:
- 财务分析
- 销售分析
- 投资规划
- 风险管理
- 欺诈分析
为了服务于特定需要,数据仓库也演变为以下两种结构:
- 数据市场(Data Mart)通常具有更少的数据,更少的主题区域,以及更少的历史数据。可以把数据市场看成为数据仓库的一个逻辑上或物理上划分的子集。
- 数据商店(ODS)只包含当前或最近的数据,通常为职员个人使用。(注:ODS是Operational Data Store的编写,更多场合被译为“操作数据存储”)
切记,“数据仓库不仅仅是一个非常大的数据库,除了提供回答公司所需要的信息之外,它还必须以一种舒适而直观的方式来提供信息。[P12]”
下图展示了数据仓库的整体架构:(注意,此图来源于Oracle,并非本书内容)
推荐到鲜果: 查阅更多相关主题的帖子: DW BI






评论