[原创]商业智能的基础之二:数据挖掘
商业智能技术是一种运用了人工智能、数据仓库、在线分析和数据挖掘等技术来处理和分析数据,帮助企业管理者做出更好的商业决策的崭新领域。其工作原理主要是通过对数据进行抽取、清洗、聚类、挖掘、预测等处理来产生可透析的各种展示数据。这些数据可直观的显示分析者所要探询的某种经营属性或市场规律。
企业在经营过程中会产生无数的信息,如订单、库存、交易账目、通话记录及客户资料等。这些信息蕴藏了丰富的经营理念和市场规律。怎样有效地利用这些宝贵的信息增进对业务情况的了解,帮助我们在业务管理及发展上作出及时、正确的判断,也就是说,怎样从业务数据中提取有用的信息,然后根据这些信息来采用明智的行动,成了企业的一个迫切愿望和现实难点。这就是商业智能的课题。
把商业智能看作是一种解决方案应该比较恰当,其中包含大量技术和应用系统,还有更多的技术和应用正在向商业智能的旗帜集合。商业智能解决方案的基本成分有数据仓库、数据分析、数据挖掘、数据展示和企业信息门户。正在向商业智能靠拢的有ERP、CRM(客户关系管理) 、文本挖掘、知识管理、Web 智能、无线智能、竞争智能、市场智能等等。
不论商业智能的具体解决方案发生怎样的变化,商业智能始终是以两大技术基础的——数据仓库和数据挖掘。(数据仓库技术已经在《商业智能的基础之一:数据仓库》一文中进行了简单论述)
数据挖掘是一项被用于从大规模数据库中发现新的、有用的知识的技术。数据的不断增长产生了对知识发现的需求; 数据挖掘技术正是为适应这一需求而出现的, 因此数据挖掘又被成为知识发现(KDD) ; 数据挖掘使用一些有效的分析算法从平凡数据中发现有用的模式, 可以说数据挖掘是将海量数据库和有用的知识紧密相连的桥梁。
企业级数据挖掘是将数据挖掘技术应用于挖掘企业数据, 如: 客户数据, 来挖掘新的客户知识,具有很高的商用价值, 并且能够应用到商业实际。企业运用数据挖掘进行知识发现的过程一般包括7 个步骤。
1) 识别商业问题。
2) 识别和研究数据来源, 选取数据。
3) 提取和处理数据。
4) 对数据进行挖掘(如: 发现关联规则或者产生预测模型)。
5) 验证数据挖掘的结果。
6) 在商业实际中应用挖掘模型。
7) ROI (投入产出) 计算。
数据挖掘的数据源并不局限于某一种数据, 可以在多种异构源商进行数据挖掘, 如: 数据仓库、OLTP 系统、Excel、Access 数据、文本文件等。但是普通的数据并不都能不加处理地直接用于数据挖掘,这主要是因为普通的业务数据中往往存在很多问题如: 数据表示不一致、空缺值、数据类型不统一等。这时就需要在数据挖掘之前进行对各种数据源的数据进行预处理, 这些操作有如下几个方面: 数据清理、数据集成、数据选择、数据变换和数据修正等。数据的预处理完成后, 就可以按照企业的需要进行数据挖掘。
数据挖掘的任务一般分为描述和预测; 描述型数据挖掘用于刻画数据库中数据的一般特性, 预测型数据挖掘在当前的数据上建模并进行预测。数据挖掘是一项新技术, 但是数据挖掘并不是独立的一门学科, 它与数据库技术、统计学、机器学习、模式识别等技术紧密相关。近几年, 许多学者都已经在这些方面做了大量的工作。
在企业建立数据仓库后, 就可以对其数据进行分析, 联机分析处理(OLA P) 侧重于以多维的方式展现数据。而数据挖掘则侧重于对数据进行深层次的挖掘, 为企业提供有价值信息。数据挖掘在决策支持系统中的应用主要有如下几个方面。
·企业生产/库存能力分析 针对各部门及企业级的数据仓库数据, 运用聚类算法进行孤立点检测, 进而判定出是否存在生产能力与任务需求不符的部门, 从而加强企业的管理, 减少企业的损失。
·预测分析 利用商务流通领域回归分析预测系统的回归模型对企业生存因素进行相关性分析, 进而能够根据已有数据对企业未来的发展趋势进行预测, 以使企业可以提前做好各项计划和准备工作, 避免了人、才、物的浪费。
·联机分析处理(OLA P) 概化视图(MV ) 的优化 使用决策树算法对OLA P 用户的使用日志进行模式发现, 然后利用基于距离的聚类算法对所有数据视图和模式进行相关性分析, 计算出用户最可能访问的数据视图进行概化, 提高OLA P 的响应速度。
在商业智能系统中关于数据挖掘方面所使用到的主要挖掘技术有人工智能技术和知识发现方法及技术。
对于人工智能技术,在商业智能系统中主要使用其构建智能决策支持系统、专家系统、神经网络、遗传算法和智能代理等应用系统/模块。
智能决策支持系统( IDSS , Intelligence Decision Supporting System) ,是人工智能(AI ,Artificial Intelligence)和DSS 相结合,应用专家系统( ES ,Expert System) 技术,使DSS 能够更充分地应用人类的知识,如关于决策问题的描述性知识,决策过程中的过程性知识,求解问题的推理性知识,通过逻辑推理来帮助解决复杂的决策问题的辅助决策系统。IDSS 的功能是,既能处理定量问题,又能处理定性问题。IDSS 的核心思想是将AI 与其它相关科学成果相结合,使DSS 具有人工智能。当前,智能决策支持系统的实现研究已成为众多学科领域的研究热点,特别是伴随人工智能的发展,不断有新的理论和方法用于智能决策支持系统的实现。
把AI 技术引入DSS ,主要是通过专家系统与DSS相结合,在DSS 系统中加入推理机和规则库。由于在决策过程中,许多知识不能用数据来表示,也不能通过模型来描述,所以没有固定方式的专门知识和历史经验。IDSS 引入的规则库可以存储这些知识,为决策提供重要的参考和依据。
专家系统,对于诊断性问题和指令性问题非常适用。诊断性问题是指需要回答“发生了什么事”的问题,相当于决策的情报阶段。指令性问题是只需要回答“我该做什么”的问题,相当于决策的选择阶段。客户关系管理软件中的市场百科全书就是这种专家系统。用户只需向专家系统提出需要解答的问题是适合表象就能够得到圆满的答复。
神经网络,被称为有学习能力的商业智能系统。它具有和人类大脑相似的功能,经过对神经网络系统进行一段时间的训练以后,该系统可以在没有人干预的情况下进行模拟识别,以解决特定领域中的问题。当神经网络被训练好以后,如果它特定领域内新的模式识别问题,它就能给你有关这种模式的相关信息。原因就是在于神经网络是按照人脑的模式来制造出来的。它的任务就是响应、自我组织、学习、抽象和遗忘,而不是执行。屡获智能商务业界大奖SAS 公司提供的Enterprise Miner 产品中就有: SOM/ KOHONEN 神经网络分类算法;神经网络模型(MLP ,RBF) 。很多公司都将销售信息保存在大型的数据仓库中,然后应用神经网络软件分析并找出最好的销售模式。
遗传算法,模拟进行化/ 适者生存的过程,逐渐产生出优化的问题解决方案。它通过选择、交叉和变异等进化概念,产生出解决问题的新方法和策略,选择是指挑选出好的解决方案,交叉是将各个好的方案中的部分进行组合连接,而变异则是随机的改变解决方案的某些部分,这样当提供了一系列可能的解决方案后,遗传算法就可以得出许多解决方案。
智能代理,是将计算机和网络中许多重复的工作独立出来,自动的适应人们的爱好和习惯,按照人们的要求完成工作、融合了许多现代的软件技术。它的典型应用是在Web 上为消费商品进行筛选或监测拍卖,在竞价时提醒用户。另外一种有名的采用代理技术的电子商务应用是合作筛选,即将用户采购同其他消费者的购买习惯相比较进行推荐,它被Amazon。 com所采用。
对于知识发现技术的使用,商业智能系统一般用其从大量营销数据和市场信息中发现有用的知识。它是在人工智
能、机器学习与数据库、在线数据分析等相结合基础上开发的从数据中发现知识的方法和技术。目前主要有在线分析处理(OLAP) 以及在线数据挖掘(OLAM) 。
在线分析处理(OLAP) 技术则帮助分析人员、管理人员从多种角度把从原始数据中转化出来、能够真正为用户所理解的、并真实反映数据维持性的信息,进行快速、一致、交互地访问,从而获得对数据的更深入了解的一类软件技术。
OLAM是一种决策支持过程,它主要基于AI、机器学习、统计学等技术,高度自动化地分析企业原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。
BI作为信息技术发展的产物, 是企业分析海量数据的必要途径, 随着信息技术和企业的紧密结合, 商业智能及其相关技术必将为企业带来更大的效益。尤其对于一些国内企业来说, 充分利用B I 技术还将改善企业管理、大大提高企业的竞争力。计算机技术及其应用的智能化正在逐渐地应用在各行各业,商业智能是企业信息处理技术发展的必然趋势,商业智能系统的发展得益于计算机技术、人工智能技术和数据处理技术的发展。商业智能系统和企业日常事务处理系统一起服务于商业事务,不同的是日常事务处理服务于操作型员工,而商业智能系统服务对象是企业决策层和管理层人员。这两种系统都是企业竞争和发展的必备条件,可以预见未来的商业社会是依赖于信息和时间的社会,谁抢占到先机,谁就定然会得到更大的成功机会。
推荐到鲜果: 查阅更多相关主题的帖子: BI 商业智能



评论