畅享博客 > 古老虾的信息化博客 > [原创]老虾谈商务智能之数据挖掘
2007-11-15 19:25:43

[原创]老虾谈商务智能之数据挖掘

随着市场竞争的加剧和信息社会需求的发展,从大量数据中提取(检索、查询等)制定市场策略的信息就显得越来越重要了。这种需求既要求联机服务,又涉及大量用于决策的数据,而传统的数据库系统已无法满足这种需求。其具体体现在三个方面:

历史数据量很大。

辅助决策信息涉及许多部门的数据,而不同系统的数据难以集成。

由于访问数据的能力不足,它对大量数据的访问性能明显下降。

随着C/S技术的成熟和并行数据库的发展,信息处理技术的发展趋势是从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,即为决策目标把数据聚合在一种特殊的格式中。随着此过程的发展和完善,这种支持决策的、特殊的数据存储即被称为数据仓库(Data Warehouse DW)

WHInmon对数据仓库的定义为数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。

主题是数据归类的标准,每个主题对应一个客观分析领域,如客户、商店等,它可为辅助决策集成多个部门不同系统的大量数据。数据仓库包含了大量的历史数据,经集成后进入数据仓库的数据是极少更新的。数据仓库内的数据时限为5年至10年,主要用于进行时间趋势分析。数据仓库的数据量很大,一般为10GB左右。它是一般数据库(100MB)数据量的100倍,大型数据仓库达到TB级。

数据仓库主要应用在两个方面:

使用浏览分析工具在DW中寻找有用的信息。

数据仓库系统支持在DW上的应用,形成决策支持系统(DSS)

随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许
多重要的信息,如果能把这些信息从数据库中抽取出来,将为公司创造很多潜在的利润,而这种从海量数据库中挖掘信息
的技术,就称之为数据挖掘。

数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策,比如,经过对公司整个数据库系统的
分析,数据挖掘工具可以回答诸如哪个客户对我们公司的邮件推销活动最有可能作出反应,为什么等类似的问题。有
些数据挖掘工具还能够解决一些很消耗人工时间的传统问题,因为它们能够快速地浏览整个数据库,找出一些专家们不易
察觉的极有用的信息。

下文将对数据挖掘的基本技术作一个简单的介绍。

数据挖掘的基础

数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然
后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶
段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。现在数据挖
掘技术在商业应用中已经可以马上投入使用,因为对这种技术进行支持的三种基础技术已经发展成熟,他们是:

海量数据搜集
强大的多处理器计算机
数据挖掘算法

商业数据库现在正在以一个空前的速度增长,并且数据仓库正在广泛地应用于各种行业;对计算机硬件性能越来越高
的要求,也可以用现在已经成熟的并行多处理机的技术来满足;另外数据挖掘算法经过了这10多年的发展也已经成为一种
成熟,稳定,且易于理解和操作的技术。

从商业数据到商业信息的进化过程中,每一步前进都是建立在上一步的基础上的。见下表。表中我们可以看到,第四
步进化是革命性的,因为从用户的角度来看,这一阶段的数据库技术已经可以快速地回答商业上的很多问题了。

进化阶段 商业问题 支持技术 产品厂家产品特点
数据搜集

(60
年代) “过去五年中我的总收入是多少?计算机、磁带和磁盘 IBM, CDC 提供历史性的、静态的数据信息
数据访问

(80
年代) “在新英格兰的分部去年三月的销售额是多少?关系数据库(RDBMS),结构化查询语言(SQL),ODBC
Oracle
SybaseInformixIBMMicrosoft 在记录级提供历史性的、动态数据信息

数据仓库;决策支持

(90
年代) “在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?联机分析处理(OLAP)、多维
数据库、数据仓库 PilotComshareArborCognosMicrostrategy 在各种层次上提供回溯的、动态的数据信息
数据挖掘

(正在流行)下个月波士顿的销售会怎么样?为什么?高级算法、多处理器计算机、海量数据库 Pilot
Lockheed
IBMSGI、其他初创公司 提供预测性的信息

表一、数据挖掘的进化历程。

数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器学习。今天,这些成熟的技术,
加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。

数据挖掘的范围

数据挖掘这个名字来源于它有点类似于在山脉中挖掘有价值的矿藏。在商业应用里,它就表现为在大型数据库里
面搜索有价值的商业信息。这两种过程都需要对巨量的材料进行详细地过滤,并且需要智能且精确地定位潜在价值的所
在。对于给定了大小的数据库,数据挖掘技术可以用它如下的超能力产生巨大的商业机会:

自动趋势预测。数据挖掘能自动在大型数据库里面找寻潜在的预测信息。传统上需要很多专家来进行分析的问题,现
在可以快速而直接地从数据中间找到答案。一个典型的利用数据挖掘进行预测的例子就是目标营销。数据挖掘工具可以根
据过去邮件推销中的大量数据找出其中最有可能对将来的邮件推销作出反应的客户。

自动探测以前未发现的模式。数据挖掘工具扫描整个数据库并辨认出那些隐藏着的模式,比如通过分析零售数据来辨
别出表面上看起来没联系的产品,实际上有很多情况下是一起被售出的情况。

数据挖掘技术可以让现有的软件和硬件更加自动化,并且可以在升级的或者新开发的平台上执行。当数据挖掘工具运
行于高性能的并行处理系统上的时候,它能在数分钟内分析一个超大型的数据库。这种更快的处理速度意味着用户有更多
的机会来分析数据,让分析的结果更加准确可靠,并且易于理解。

数据库可以由此拓展深度和广度

深度上,允许有更多的列存在。以往,在进行较复杂的数据分析时,专家们限于时间因素,不得不对参加运算的变量
数量加以限制,但是那些被丢弃而没有参加运算的变量有可能包含着另一些不为人知的有用信息。现在,高性能的数据挖
掘工具让用户对数据库能进行通盘的深度编历,并且任何可能参选的变量都被考虑进去,再不需要选择变量的子集来进行
运算了。

广度上,允许有更多的行存在。更大的样本让产生错误和变化的概率降低,这样用户就能更加精确地推导出一些虽小
但颇为重要的结论。

最近,Gartner Group的一次高级技术调查将数据挖掘和人工智能列为未来三到五年内将对工业产生深远影响的五大
关键技术之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。根据最近Gartner
HPC
研究表明,随着数据捕获、传输和存储技术的快速发展,大型系统用户将更多地需要采用新技术来挖掘市场以外的价
值,采用更为广阔的并行处理系统来创建新的商业增长点。

在数据挖掘中最常用的技术有:

人工神经网络:仿照生理神经网络结构的非线形预测模型,通过学习进行模式识别。

决策树:代表着决策集的树形结构。

遗传算法:基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。

近邻算法:将数据集合中每一个记录进行分类的方法。

规则推导:从统计意义上对数据中的如果-那么规则进行寻找和推导。

采用上述技术的某些专门的分析工具已经发展了大约十年的历史,不过这些工具所面对的数据量通常较小。而现在这
些技术已经被直接集成到许多大型的工业标准的数据仓库和联机分析系统中去了。

数据挖掘工具是怎样准确地告诉你那些隐藏在数据库深处的重要信息的呢?它们又是如何作出预测的?答案就是建模。建
模实际上就是在你知道结果的情况下建立起一种模型,并且把这种模型应用到你所不知道的那种情况中。比如说,如果你
想要在大海上去寻找一艘古老的西班牙沉船,也许你首先想到的就是去找找过去发现这些宝藏的时间和地点有哪些。那
么,经过调查你发现这些沉船大部分都是在百慕大海区被发现,并且那个海区有着某种特征的洋流,以及那个时代的航线
也有一定的特征可寻。在这众多的类似特征中,你将它们抽象并概括为一个普适的模型。利用这个模型,你就很有希望在
具有大量相同特征的另外一个地点发现一件不为人知的宝藏。

 

当然,在数据挖掘技术甚至计算机出现以前,这种建模抽象的方法就已经广泛地被人们所使用。在计算机中的建模和
以前的建模方法并无很大不同,主要的差异在于计算机能处理的信息量比起以前来更加庞大。计算机中能够存储已知了结
果的大量不同情况,然后由数据挖掘工具从这些大量的信息里面披沙拣金,将能够产生模型的信息提取出来。一当模型建
立好了之后,就可以应用在那些情形相似但结果尚未知的判断中了。比如,现在假设你是一个电信公司的营销主任,公司
想发展一些新的长途电话用户,那么你是不是会漫无目的地到街上去散发广告呢?——就象漫无目的地在海上去寻宝一
样。其实,比起漫无目的地去进行宣传来,利用你以前的商业经验来有目的地去拉拢客户会产生高得多的效率。

 

作为一个营销主任,你对客户的很多信息都可以了解得一清二楚:年龄、性别、信用记录以及长途电话使用状况。从
好的一方面来看,掌握了这些客户的信息其实就是掌握了很多潜在的用户的同样的信息。问题在于你还不一定了解他们的
长途电话使用情况(因为他们的长途电话也许是通过的另一个电信公司)。现在你的主要精力就集中在用户中谁有比较多
的长途电话上。通过下面这个表格,我们可以从数据库里面抽象某些变量,建立起一个可以对此进行分类营销的模型。
  客户 潜力
一般信息

(e.g. demographic data)
已知 已知
私有信息

(e.g. customer transactions)
已知 待定

 

表二、数据挖掘应用于分类营销

 

根据我们创建的从一般信息到私有信息的计算模型,我们可以得出表二右下方表格中的信息。比如,一个电信公司的
简化模型可以是:年薪6万美圆以上的98%的客户,每个月长话费80美圆以上。根据这个模型,我们就能应用这些数据来推
断出公司现在尚不能明确的私有信息,这样,新客户群体就可以大体确定出来了。小型市场的试销数据对于这样的模型来
说显得极为有用。因为小范围内试销数据的挖掘,能够为全部市场的分类销售打下一个良好的基础。表三则描述了另外一
样数据挖掘的普遍应用:预测。
  过去 现在 将来
静态信息和当前计划 已知 已知 已知

动态信息 已知 已知 待定

 

表三、数据挖掘应用于预测

 

数据挖掘的体系结构

 

现有很多数据挖掘工具是独立于数据仓库以外的,它们需要独立地输入输出数据,以及进行相对独立的数据分析。为
了最大限度地发挥数据挖掘工具的潜力,它们必须象很多商业分析软件一样,紧密地和数据仓库集成起来。这样,在人们
对参数和分析深度进行变化的时候,高集成度就能大大地简化数据挖掘过程。下图显示了一个大型数据库中的高级分析过
程。

 

 


集成后的数据挖掘体系

 

应用数据挖掘技术,较为理想的起点就是从一个数据仓库开始,这个数据仓库里面应保存着所有客户的合同信息,并
且还应有相应的市场竞争对手的相关数据。这样的数据库可以是各种市场上的数据库:SybaseOracleRedbrick、和其
他等等,并且可以针对其中的数据进行速度上和灵活性上的优化。

 

联机分析系统OLAP服务器可以使一个十分复杂的最终用户商业模型应用于数据仓库中。数据库的多维结构可以让用户
从不同角度,——比如产品分类,地域分类,或者其他关键角度——来分析和观察他们的生意运营状况。数据挖掘服务器
在这种情况下必须和联机分析服务器,以及数据仓库紧密地集成起来,这样就可以直接跟踪数据和并辅助用户快速作出商
业决策,并且用户还可以在更新数据的时候不断发现更好的行为模式,并将其运用于未来的决策当中。

 

数据挖掘系统的出现代表着常规决策支持系统的基础结构的转变。不象查询和报表语言仅仅是将数据查询结果反馈给
最终用户那样,数据挖掘高级分析服务器把用户的商业模型直接应用于其数据仓库之上,并且反馈给用户一个相关信息的
分析结果。这个结果是一个经过分析和抽象的动态视图层,通常会根据用户的不同需求而变化。基于这个视图,各种报表
工具和可视化工具就可以将分析结果展现在用户面前,以帮助用户计划将采取怎样的行动。

 

产生利润的工具

 

有很多公司都成功地安装了数据挖掘工具。早先采用了这种技术的公司大部分都是信息密集型公司,比如金融服务和
邮件营销系统,但是现在这种技术已经准备好应用于各个公司中,只要公司具有大型数据库,并且有强烈的通过软件技术
改善公司管理的愿望。但是采用数据挖掘技术,公司必须两个关键的因素,一个就是大型的,集成化的数据库;另一个就
是定义完善的商业处理程序,这样数据挖掘才好紧密地应用于公司数据之上。

 

采用数据挖掘技术的一些成功应用,例如一个药品公司,通过对它最近的营销强度和销售结果的分析,来决定哪一种
营销活动在最近几个月内对高附加值的医生群体影响最大,这样的分析建立在竞争对手的销售活动信息和当地健康状况的
数据系统之上。然后这个药品公司可以通过其办公网络,将分析结果传达到各地的销售代表处,销售代表们则可以根据公
司传递的关键信息来作出相应的销售抉择,这样,在快速变化的、动态的市场上,销售代表们都可以根据各种特殊情况的
分析作出最优的选择。

 

结语
全面集成了客户、供应者以及市场信息的大型数据仓库导致公司内的信息呈爆炸性增长,企业在市场竞争中,需要及
时而准确地对这些信息作复杂的分析。为了更加及时地,更加准确地作出利于企业的抉择,建立在关系数据库和联机分析
技术上的数据挖掘工具为我们带来了一个新的转机。目前,数据挖掘工具正以前所未有的速度发展,并且扩大着用户群
体,在未来越加激烈的市场竞争中,拥有数据挖掘技术必将比别人获得更快速的反应,赢得更多的商业机会。

九大数据仓库方案特点比较

IBMOracleSybaseCANCRInformixMicrosoft、和SAS等有实力的公司相继(通过收购或研发的途径)推出了自己的数据仓库解决方案,BOBrio等专业软件公司也在前端在线分析处理工具市场上占有一席之地。下面针对这些数据仓库解决方案的性能和特点做分析和比较。

 

1.IBM IBM公司提供了一套基于可视数据仓库的商业智能(BI)解决方案,包括:Visual WarehouseVW)、Essbase/DB2 OLAP Server 5.0IBM DB2 UDB,以及来自第三方的前端数据展现工具(如BO)和数据挖掘工具(如SAS)。其中,VW是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。Essbase/DB2 OLAP Server支持的定义和数据装载。Essbase/DB2 OLAP Server不是ROLAPRelational OLAP)服务器,而是一个(ROLAPMOLAP)混合的HOLAP服务器,在Essbase完成数据装载后,数据存放在系统指定的DB2 UDB数据库中。
严格说来,IBM自己并没有提供完整的数据仓库解决方案,该公司采取的是合作伙伴战略。例如,它的前端数据展现工具可以是Business ObjectsBOLotusApproachCognosImpromptuIBMQuery Management Facility;多维分析工具支持Arbor SoftwareEssbaseIBM(与Arbor联合开发)的DB2 OLAP服务器;统计分析工具采用SAS系统。

 

2.Oracle Oracle数据仓库解决方案主要包括Oracle ExpressOracle Discoverer两个部分。Oracle Express由四个工具组成:Oracle Express Server是一个MOLAP (多维OLAP)服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够访问多种关系数据库;Oracle Express Web Agent通过CGIWeb插件支持基于Web的动态多维数据展现;Oracle Express Objects前端数据分析工具(目前仅支持Windows平台)提供了图形化建模和假设分析功能,支持可视化开发和事件驱动编程技术,提供了兼容Visual Basic语法的语言,支持OCXOLEOracle Express Analyzer是通用的、面向最终用户的报告和分析工具(目前仅支持Windows平台)。Oracle Discoverer即席查询工具是专门为最终用户设计的,分为最终用户版和管理员版。
Oracle数据仓库解决方案实施过程中,通常把汇总数据存储在Express多维数据库中,而将详细数据存储在Oracle关系数据库中,当需要详细数据时,Express Server通过构造SQL语句访问关系数据库。但目前的Express还不够灵活,数据仓库设计的一个变化往往导致数据库的重构。另外,目前的Oracle 8iExpress 之间集成度还不够高,Oracle 8iExpress之间需要复制元数据,如果Oracle Discoverer(或BO)需要访问汇总数据,则需要将汇总数据同时存放在OracleExpress中,系统维护比较困难。值得注意的是,刚刚问世的Oracle 9iOLAP和数据挖掘作为重要特点。

 

3.Sybase Sybase提供的数据仓库解决方案称为Warehouse Studio,包括数据仓库的建模、数据抽取与转换、数据存储与管理、元数据管理以及可视化数据分析等工具。其中,Warehouse ArchitectPowerDesigner中的一个设计模块,它支持星形模型、雪花模型和ER模型;数据抽取与转换工具包括PowerStageReplication ServerCarleton PASSPORTPowerStageSybase提供的可视化数据迁移工具。

 

Adaptive Server EnterpriseSybase企业级关系数据库,Adaptive Server IQSybase公司专为数据仓库设计的关系数据库,它为高性能决策支持系统和数据仓库的建立作了优化处理,Sybase IQ支持各种流行的前端展现工具(如Cognos ImpromptuBusiness ObjectsBrio Query等);数据分析与展现工具包括PowerDimensionsEnglishWizardInfoMakerPowerDynamo等,PowerDimensions是图形化的OLAP分析工具,它支持SMP和多维缓存技术,能够集成异构的关系型数据仓库和分布式数据集市,从而形成单一的、新型的多维模式;数据仓库的维护与管理工具包括Warehouse Control CenterSybase CentralDistribution Director,其中Warehouse Control Center是为数据仓库开发人员提供的元数据管理工具。

 

Sybase提供了完整的数据仓库解决方案Quick Start DataMart,具有良好的性能,并支持第三方数据展现工具。从Quick Start DataMart的名称不难看出,它尤其适合于数据集市应用。另外,Sybase可以提供面向电信、金融、保险、医疗保健这4个行业的客户关系管理(CRM)产品,在这4个产品中,有80%的功能是共性的,有20%的功能需要Sybase与合作伙伴针对不同需求共同开发。

 

4.Informix Informix19981999年相继收购了国际上享有盛誉的数据仓库供应商Red Brick System和数据管理软件供应商Ardent,并提供了完整、集成的数据仓库解决方案。该解决方案还包括一个快速启动咨询服务,能够帮助用户快速完成数据仓库或数据集市的开发。Informix产品能够集成Microsoft IISNetscape Enterprise/FastTrack服务器,从而支持基于Web的数据仓库应用。
Informix
没有提供自己的报表和数据挖掘工具,但他们与BrioSAS公司建立了战略联盟,并推出了“Informix商务智能联盟计划。该计划以Informix为主,结合Brio的前端数据分析和报表功能,以及SAS的数据挖掘功能,形成了一个“BI中心打包方案。

(今年4Informix Software已被IBM公司收购,此举将给IBM公司数据库及数据仓库产品,从技术和市场占有率上带来极大的提升。)

 

5.CA CA1999年收购了Platinum Technology公司后,得到了完整的数据仓库解决方案,包括:Erwin数据仓库设计工具、InfoPump数据转换与抽取工具、InfoBeacon ROLAP服务器、ForestTrees前端数据展现工具、Provision系统监视与作业调度工具和DecisionBase元数据管理工具等。
Informix解决方案相似,CA解决方案也提供了数据仓库建模、元数据管理、数据抽取与转换、基于关系数据库的在线分析服务器、系统监视与作业调度、前端数据展现等功能,同时还支持Web应用。不同之处是Informix提供了专门为数据仓库设计的高性能目标数据库(Red Birck),而CA解决方案则提供ODBC接口,并将数据存储在第三方关系数据库(OracleSybaseSQL ServerInformixIBM DB2)中,其性能要打一些折扣,但开放性要好些。另外,CAOLAP服务器目前只能与MicrosoftIIS Web服务器集成。

 

6.NCR Teradata NCR Teradata是高端数据仓库市场最有力的竞争者,主要运行在NCR WorldMark SMP硬件的Unix操作系统平台上。1998年,该公司也提供了基于Windows NTTeradata,试图开拓数据集市(Data Mart)市场。总的来看,NCR的产品性能很好,Teradata数据仓库在100GB300GB1TB3TB级的TPCD指标测试中均创世界纪录。但是,NCR产品的价格相对较高,中小企业用户难以接受。

 

7.Microsoft MicrosoftOLAP功能集成到Microsoft SQL Server 7.0中,提供可扩充的基于COMOLAP接口。它通过一系列服务程序支持数据仓库应用。数据传输服务DTSData Transformation Services)提供数据输入/输出和自动调度功能,在数据传输过程中可以完成数据的验证、清洗和转换等操作,通过与Microsoft Repository集成,共享有关的元数据;Microsoft Repository存储包括元数据在内的所有中间数据;SQL Server OLAP Services支持在线分析处理;PivotTable Services提供客户端OLAP数据访问功能,通过这一服务,开发人员可以用VB或其他语言开发用户前端数据展现程序,PivotTable Services还允许在本地客户机上存储数据;MMCMicrosoft Management Console)提供日程安排、存储管理、性能监测、报警和通知的核心管理服务;Microsoft Office 2000套件中的AccessExcel可以作为数据展现工具,另外SQL Server还支持第三方数据展现工具。

 

8.SAS SAS公司在20世纪70年代以统计分析线性数学模型而享誉业界,90年代以后,SAS公司也加入了数据仓库市场的竞争,并提供了特点鲜明的数据仓库解决方案,包括30多个专用模块。其中,SAS/WAWarehouse Administrator)是建立数据仓库的集成管理工具,包括定义主题、数据转换与汇总、更新汇总数据、元数据管理、数据集市的实现等;SAS/MDDBSAS用于在线分析的多维数据库服务器;SAS/AF提供了屏幕设计功能和用于开发的SCL(屏幕控制语言);SAS/ITSVIT Service Vision)是IT服务的性能评估和管理的软件,这些IT服务包括计算机系统、网络系统、Web服务器和电话系统等。SAS系统的优点是功能强、性能高、特长突出,缺点是系统比较复杂。

 

9.Business Objects Business ObjectsBO)是集查询、报表和OLAP技术为一身的智能决策支持系统。它使用独特的语义层技术和动态微立方技术来表示数据库中的多维数据,具有较好的查询和报表功能,提供钻取(Drill)等多维分析技术,支持多种数据库,同时它还支持基于Web浏览器的查询、报表和分析决策。虽然BO在不断增加新的功能,但从严格意义上说,BO只能算是一个前端工具。也许正因为如此,几乎所有的数据仓库解决方案都把BO作为可选的数据展现工具。
虽然国内有很多大学和研究机构从事数据仓库技术的研究,但到目前为止,国内基本上没有成熟的数据仓库解决方案。

 


推荐到鲜果:

评论

您正在以 匿名用户 的身份发表评论  快速登录
(不得超过 50 个汉字)
       看不清,换一个
提示消息
(输入完内容可以直接按Ctrl+Enter提交)