畅享博客 > 安信毕城 > 业绩流程决策 > [原创]知识加工行业的随想记载
2008-5-18 10:22:11

[原创]知识加工行业的随想记载

 

    数据是原材料,信息是中级或中间产品、初始产品、知识是高级产品、需要对信息的高精尖的加工。目前对这一知识加工行业的分类描述比较粗浅,实际上,数据原材料也要有很多分类,一级数据、二级数据、三级数据、原始数据、标准化的数据、数据放大缩小、数据合并、数据筛选。

   对知识加工行业可以比照有形物质产品的生产加工行业。

   除了信息外,在数据和知识之间还有很多类型的产品存在,“数信”、“信识”

 

对于原材料、信息、知识等随着行业实践和深入研究,对这些过程和中间产品的分类描述会更精确,创造更多的词汇对分类的需求。

 

知识的加工数据,最原始来自于通过一定工具和设计对实物采样获得初始数据

 

对于实体样本通常考虑采用我们人体自然五官能感受分析的数据呈现方式或我们现在科学能制造的仪器能感知的数据呈现方式来对应实体所隐含的数据,如基因芯片中的信号通过检测芯片所使用的标记物含量得到的,标记物有放射性同位素、生物素、荧光染料等。不同位点的信号被专用的仪器采集和检测到,由计算机处理荧光信号,并对每个点的荧光强度数字化后进行分析,这就构成了基因芯片图像采集和处理的步骤。

芯片图像处理应尽可能消除误差的影响,一般三个步骤:一是划格,目的是将事先根据芯片型号定义好行列数的格子覆盖到芯片上,以确定样点位置。二是分割,将杂交的荧光信号像素与背景像素分开。一般来说这一步是选择一个框架将杂交信号像素包含在内。通常方法是利用信号点定位结果的空间信息来分开属于信号的像素和属于北京的像素。信号点定位完成后,点的位置和大小已经确定,再样点相应位置上建立一个框架,例如圆,将信号和背景分开。圆内的像素是信号,而圆外则是背景。三是强度提取,包括计算荧光信号强度和背景强度,还要将背景扣除,用一定的统计量衡量样点的质量以及对结果进行校正。最常见的一步是用信号值减去背景值来校正信号值。

   在芯片图像处理还有一个重要步骤就是检验图像处理后得到的数据可靠性,也就是检验数据的质量。数据质量包括两个方面,一是整体芯片的数据质量,一个质量好的芯片应当有一个相对较低的整体背景一级较高的信噪比。另一部分是每个点的质量。

 

对于数据加上一个判断,则得到二级数据,经过我们加上需要的判断层次,最后抽取出来的就是我们想要的数据信息。如决策树:

 

数据挖掘中对于数据分类的描述分三步:建模、使用分类器进行分类,对分类器性能进行评价。分类器的构造方法有统计方法、机器学习方法、神经网络方法等。统计方法中包括贝叶斯法和非参数法(近邻学习),对应的知识表示形式为判别函数和原型事例。机器学习方法包括决策树法和支持向量机法,前者对应的是决策树或判别树,后者则通过判别函数对新样本进行分类。神经网络主要方法是BP算法,本质上是非线性判别函数。

把分类问题看成统计决策。

决策树法(classification tree)是以实例为基础的归纳学习算法。它着眼于从一组无次序、无规则的样本中推理出树状表示形式的分类规则。

系统:系统的结构、功能特征(动态特征)、控制方法、设计方法。系统生物学领域包括这些课题如何从各种数据中推导某些生物系统的结构一级简单的动态特征、生物系统的稳定性。

 

这是去年看生物芯片数据信息处理的书籍,偶尔摘记和狂想,本人喜欢数据挖掘,希望能得到数据挖掘的人员指导交流

 


推荐到鲜果: 查阅更多相关主题的帖子: 知识管理 知识转换 知识管理系统

评论


发布者 minshihe
2008-5-23 6:21:36


您正在以 匿名用户 的身份发表评论  快速登录
(不得超过 50 个汉字)
       看不清,换一个
提示消息
(输入完内容可以直接按Ctrl+Enter提交)