2007-4-15 13:23:22
[原创]秋叶乱弹之六--如何把数据变成信息?
既然信息化就是要把零散的数据变成信息,再加以利用,那么海量的数据到底如何才能变成信息呢?
关于这方面有很多理论,例如信息资源规划理论,企业资源管理理论,也有很多相当成熟工具或管理系统。我们今天站在一个宏观的角度来看,就会发现把数据转化为信息,无非要经过四个阶段。
这四个阶段是属性、聚合、数据挖掘、智能分析。
n 属性
要利用数据,就得把它变成可处理的对象。
一提到对象大家可能都觉得很神秘,特别是很多供应商故作神秘强调他们的软件是采用面向对象的方式开发的时候,我们普通人对软件工程中的“对象”已经敬而远之,曾经有个企业领导对我发火:“你们讲软件时注意了,我们企业没有对象,只有东西,不要搞些我们听不懂的话!”
其实对象化的方法大家都会用,说白了对象化就是给同类的事物同样的属性,同样的分类,同样的关联,同样的隶属关系,同样的处理流程,同样的接口。
我们要管理一条数据,可以直接判定其内容是否符合需要,但数据量一大,我们不能逐条查看内容了,这种情况下就要给数据建立属性集。
例如公安系统要管理我们每个人,首先要给我们增加一些基本属性,例如姓名,性别,年龄,籍贯,身份证号等等。
有了这些属性,我们才可以在不关注数据内容的前提下,大概判定这是否是我们需要的数据,这个时候数据就已经变成了最原始的可利用信息。
属性越全,越细,对我们利用信息越有帮助,不过太多的属性也会增加搜索成本,所以设置合理的属性集是需要专业技巧和行业经验的结合,这应是很多信息化项目实施的重点评估内容。
至于属性存放在文件还是数据库中,利用何种信息手段去检索最合适,这就是软件提供商的专业范畴了。
n 聚合
对数据增加属性,可可以一定程度解决检索的问题,但是对于海量数据如果一开始就进入属性搜索,效率不会很高。
人们自然想到能否把有共同特性的数据归在一起,然后从这个比较小的集合中,再利用属性进行数据查询,最后在一个小范围内看看具体内容,一定是最节省时间的方法。
把数据归聚在一起的方法我称之为聚合,在数学上可以对应理解为集合。
数据聚合具体的方式有四种:目录聚合,分类聚合,隶属聚合,关联聚合,这四种方式交叉组合基本构成了目前常见数据管理方法的内涵。
Ø 目录聚合
目录其实就是我们常用的WINDOWS的资源管理器,在没有电脑之前,就是我们手工作业下的档案盒。
目录的特点是只要是同一份文件可以放在不同的目录中,允许存在多个副本。目录还有一个特点就是允许不同位置的目录同名。
从这个角度看,企业组织和个人之间的关系常常用组织结构树来表达,其实也是一种目录聚合。
对于很多企业,管理项目资料,最方便的方式就是建立一个标准目录索引,以后新开一个项目就参考复制出一个新的标准项目目录即可。
如果大家建立目录的习惯是统一的,那么进入目录查找数据的效率就会很高。
Ø 分类聚合
目录虽然很方便,但也有问题。
举两个例子:
很多时候我们想找同样的资料作为参考,例如想找到所有项目的可行性报告,筛选出一个做模板,一个目录包一个目录包中去找就不方便。
有些信息不适合用目录管理,例如图书馆的资料,不能又可以归档到这个书架,还可以归档到另外一个书架,这样非乱套不可。
如果我们希望每条数据都只有唯一归类之处,就得考虑建立分类聚合。分类聚合最大特点就是按照这种关系维护的数据,只能唯一归类到同级某一类,不可能同时存在于几个同级类别,这样我们找资料只要能判断它属于哪个类别,在这里面找准行。
我们天天看报纸,报纸上的分类广告栏目是最典型的分类聚合,同类广告一定放在一起,这里没找到信息不用到其它版面去找。不仅是分类广告,其它报纸栏目也是把不同的内容总是固定放在一些版面上,这就是分类聚合。
分类聚合的建立往往是和编码紧密相关的,因为数据纳入具体的分类结果一定是唯一的,而编码要求也是唯一性,这样很多信息化系统所谓的编码也就是找到一种分类方式而已。
值得一提的是,分类方式并非只有唯一一种,例如人,可以分男人,女人,也可以分老人,中年人,青年人和少年儿童,也可以分党员,群众等等。
有了多种分类方式,在数据查询时就可以利用求交集的方式,大大加快数据查找的效率。例如我们在大企业找一个姓张三的人可能很慢;但如果我们多提供一些分类信息,例如找一个企业中是党员的中年男人,他姓张三,这样搜索效率就很搞。
在实际应用中,常常看见大家把分类和目录混为一谈,建立混乱的数据管理方案,这样的信息化只能是帮倒忙。
Ø 隶属聚合
很多数据之间有很强的联系,例如对离散装配型汽车产品而言,它有车身,车桥,驾驶舱等部分构成。
这些构成汽车的零部件在ERP专业术语里面叫“BOM(物料清单)”,也就是PDM系统所谓的产品结构树。
在现实生活中,有很多这样的例子,数据之间有紧密不可分割的联系,我们习惯通过这种联系管理我们的数据。
这种数据管理我把它称之为隶属关系。
书本的章节和书就是一种隶属关系,反映这种隶属管理的“BOM”就是书目。
在项目管理中,一个项目下的各个子活动逐步分解得到的一个WBS计划,也是一种隶属关系。
所以对很多具体业务领域,我们还得找到数据之间这种强关联关系,建立隶属聚合,才方便我们后续利用。
Ø 关联聚合
有些数据之间并非有这么直接的关系,隶属聚合反映了我们利用数据时的一种定向思维,但我们在利用数据时可能还有一种发散思维。
例如我们上当当网买书,它会在你浏览的书旁边注明,关注本书的读者往往还浏览了这些书。这些书之间的关系就是一种关联关系。
至于我们上网经常看到网站在一篇文章旁边注明相关文章,或者类似文章,这种文章之间关系建立方式就完全是发散的,可以多种多样。例如都是最热文章,都是具有某个关键词的文章等等。
利用关联聚合可以帮助我们提供创造性的灵感,在现实生活中也非常有用。
例如看到一个采购零件了,我们可能想知道他的供应商是谁,看到供应商名单了我们可能想知道他老总的联系方式,同类的供应商报价等等。
再例如我们看到图纸了可能就想它的工艺应该是怎样的呢?看到工艺就想配套工装做好了没有?看到工装就想对应的测量工具解决了吗?
这些都是关联性思维,所以要提高数据利用的灵活性,关联聚合也是非常重要的维护手段。
n 数据挖掘
建立属性和建立聚合都是我们对要管理的数据有一个清醒的认识前提下,我们主动规划和管理我们的数据。
但很多时候我们未必能搞清除海量数据之间的联系,或者在我们的知识结构中我们并不知道如何分析和利用这些数据。
或者说我们知道我们想从数据中获得一些便于决策分析的信息,但这些信息并不直接从数据中直接反映出来。
这就需要一些专门的工具和方法来进行数据的分析。
例如电信等企业就需要利用客户管理工具来分析了解和跟踪大客户的话费使用特点和流失情况,进而采取相应的营销对策。
而克里斯·安德森分析大量网络书籍销售数据和音乐下载数据发现了长尾理论,这就从大量数据中看出了别人没有发现的规律,这种规律无疑对我们产生新的商业模式有巨大的价值。
这些都是数据挖掘需要关注的内容。
如果说建立属性和聚合是对已有数据的内容进行管理的话,数据挖掘是从大量数据中发现趋势和规律,这些趋势和规律是有极大知识含量的信息,也是经过高度提炼的信息,也是最有商业价值或研究价值的信息。
n 智能分析
对于大部分个人而言,数量量还没有达到一个惊人的地步,但都会遇到很多资料查找不便利的问题。
但我们现在所有的数据管理方法都要求我们要高效利用好数据,就必须对自己的数据做好管理,而人的天性就倾向随心所欲处置自己的数据。换句话说严格管理要以牺牲天性为代价。
能否每个人还是随心所欲管理自己的数据,但电脑系统能自动记录我们对数据访问的习惯,并识别数据的内容自动实现归档呢?
已经有公司在做这方面的尝试,例如Google的桌面搜索工具。当你浏览一个网页时,阅读一封E-mail的时候,打开或编辑一个文件时,用AIM聊天时,Google Desktop Search就会做两件事:
1.将上述行动编入索引中,以便今后查找
2.将上述行动的内容复制到自己cache中,这样以后你可以看到自己的已经结束很久的聊天内容,硬盘文件和所有浏览网页的内容。
1.将上述行动编入索引中,以便今后查找
2.将上述行动的内容复制到自己cache中,这样以后你可以看到自己的已经结束很久的聊天内容,硬盘文件和所有浏览网页的内容。
利用这种后台自动处理的GOOGLE桌面搜索工具,我们可以把数G的信息建立只有几百M索引,今后就可以非常方便的搜索OFFICE文件,邮件,WEB历史临时记录等,而且搜索速度非常快。
这种趋势如果发展下去,我这里提前预测,未来数据管理手段越来越成熟和完整后,下一步信息化的方向只能是智能化,让电脑想人一样思考,记录每一个人习惯,自动依据电脑识别的个人习惯进行资料索引编制,自动提交到可靠的存贮位置,自动添加属性,自动纳入各种聚合,自动调用数据挖掘工具分析,人的操作最大程度简化,而人的需要最大程度去满足。
如果正确的数据得到的成本很低,我们就会无比依赖电脑,这个阶段信息化才能算达到一个突破现在水平的境界。
0
推荐到鲜果:


评论
发布者 凡人
2007-4-16 14:40:44
发布者 dgchch
2007-4-17 5:33:34
发布者 Seaside Playboy
2007-4-17 17:29:42
确实比较宏观,但这么分的依据是什么呢?难道仅仅是从概念出发?
发布者 happyscry
2007-4-17 18:46:57
自己这样想,就这样写了,谈不上宏观不宏观。
主要想把自己一些思考写下来
发布者 秋叶漫谈
2007-4-18 18:13:50
发布者 bm28
2007-4-18 19:48:46
我分类的方法主要依据我做PDM实施时的思考,我做PDM实施必须考虑所有技术资料的分类,如何分最合理,逐步就形成了这样的想法
发布者 秋叶漫谈
2007-5-7 10:08:56