畅享博客 > 管理员的博客 > IT > 如何利用信息检索技术(原创)
2005-8-18 23:29:00

如何利用信息检索技术(原创)

 

要使得知识管理系统变得有效和能够持续提高用户的生产力,高效的检索访问能力十分重要。知识管理系统通常会提供了先进、高效的检索访问技术来快速精确地定位这些知识资源。
毫无疑问,检索是知识管理的核心技术,检索可以采取两种方案:
1.全文检索技术
全文检索(Full Text Search),通常是指对文字型的处理对象,根据数据资料的内容,而不是根据外在特征来实现的信息检索手段。在检索时,用户自由地输入检索词或短语,由系统进行匹配,并将匹配到的文档按检索词出现频率的统计规则提供给用户。
全文检索技术主要关注的是查全率和查准率。前者是指系统在进行某一检索时,检索出的相关资料量与系统资料库中相关资料总量的比率。后者则是保证我们找到最有用资料的一个关键,是系统在进行某一检索时,检索出的有用资料数量与检索出资料总量的比率。提高查全率和查准率主要采用以下几种技术:
(1)布尔逻辑符检索
用布尔逻辑算符将关键词、短语或代码进行逻辑组配,凡符合逻辑组配所规定条件的为命中文献,否则为非命中文献。它是信息检索中最常用的一种检索方法。
(2)位置算符检索
在检索式中表示算符两边的关键词之间位置关系的符号。这种方法能够提高检索的准确性,当检索的关键词要用词组表达,或者要求两个词在记录中位置相邻/相连时,可使用位置算符。
(3)截词符检索
利用关键词的词干或不完整词形进行查找的过程为截词检索。它可以起到扩大检索范围,提高查全率,减少关键词的输入量,节省检索时间。尤其在英文检索系统中检索时,若遇到名词的单复数形式,词的不同拼写法,词的后缀变化时,均可采用此方法。
(4)限制符检索
限制符检索是通过限制检索范围,达到优化检索结果的方法。不能完全确定关键词在数据库记录中出现的字段位置,特别在使用自由词进行全文检索时,需要用字段限制检索的范围。

2.文本挖掘技术
文本挖掘(text mining),是将文档归入一个有序的结构,再按结构规则提取文档。通常,它有两种方式建立文档结构:
(1)自动生成
由机器根据文档特征,按一定算法自动建立有序的结构,并将文档归入该结构。这种方法的代表产品是IBM的Text Miner和Autonomy公司的Concept Agent。
IBM的Text Miner主要功能是特征抽取、文档聚集、文档分类和检索,Text Miner的特征抽取器能从文档中抽取人名、组织名和地名以及由多个字组成的复合词。此外,特征抽取器还能抽取表达数字的词汇,例如,"钱"、"百分比"、"时间"等。抽取完特征以后,有相似特征的文档就被自动聚集成一个集合。
Concept Agents在经过训练以后,它能自动地从文本中抽取概念。先要对系统进行训练,处理一些文档,由使用者对非冗余概念做出认定和识别。系统在随后的自动处理中根据这些概念在文档中出现的实际情况,按贝叶斯公式求出后验概率,以此作为冗余过滤的依据。这一方法与语种无关,由于每个用户都要对系统进行个别训练,因而系统的文本挖掘天然就具有高度个性化的特点。
(2)人工建立
由人工建立结构,再人工将文档归入结构。在这种方法中,最常采用的结构是树状分类表,该分类表由本领域的专家编制,再由知识管理工人按文档内容将它归入某一个最终子类,检索时可按树状结构一层一层地找到文档。这种方法的问题是分类规则有很强的主观性,与编制者对该领域的理解有很大关系。
除分类表外,还可以采用主题词表方法。它将本领域的主要概念(主题词)收集在一起,给出概念间的相互关系:并列、同意、上下位等;然后再将文档按其内容所涉及的主题,从主题词表中选出若干个概念,作为该文档的标识,并存入数据库。以后,只要从主题词表中选出合适的主题词,就可以提取文档。这种方法灵活性较分类表法好,但主题词表的编制很困难,给文档赋予主题词(标引)也较分类法困难。
一般来说,小型知识管理项目的检索技术采用全文检索就可以了,但在中大型项目中,还需要应采用结构化的方法,利用文本挖掘技术进行知识检索。


推荐到鲜果:

评论

恩,长见识了。

发布者 admin
2005-8-19 8:13:00


您正在以 匿名用户 的身份发表评论  快速登录
(不得超过 50 个汉字)
       看不清,换一个
提示消息
(输入完内容可以直接按Ctrl+Enter提交)