畅享博客 > 王振宇知识管理小学 > [原创]搜索引擎在知识管理中的应用思路
2008-7-11 0:22:43

[原创]搜索引擎在知识管理中的应用思路

海量信息,给我们带来苦恼! 
 
1、 大量数据、文档、信息堆积,需要通过搜索引擎,能够直接找到文件中的关键信息。
2、 上了多套软件系统,每个都有自己的数据库,能否通过一个搜索引擎,跨越OA、ERP、MIS等系统里面,找到自己所需的信息? 
 

解决方案 
 
·JAVA内核的全文搜索引擎!
·为您解决海量信息检索、跨信息孤岛的搜索问题!
·支持word、excel、ppt、pdf、txt等多种文档格式的全文搜索! 
 

真正的全文检索,确保搜索准确率!
  全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。
强大的索引引擎,确保执行效率!
  一个全文检索应用的优异程度,根本上由全文检索引擎来决定。因此提升全文检索引擎的效率即是我们提升全文检索应用的根本。

核心技术 
 
  搜索引擎是以中文信息处理技术与数据挖掘技术为核心技术,以智能检索、智能分析和智能处理为核心功能的产品,本公司产品基于如下核心技术模块:
  (1)索引文件格式独立于应用平台。以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件。
  (2)实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的。
  (3)优秀的面向对象的系统架构,方便扩充新功能。
  (4)强大的查询引擎,用户无需自己编写代码即使系统可获得强大的查询能力,实现了布尔操作、模糊查询(Fuzzy Search[11])、分组查询等等。

智能处理
   网络爬虫/Spider技术
   自动摘要
   自动消重
   信息指纹技术
   自动索引、自动更新
   自动正文抽取
   智能分析
   主体检测/追踪
   关联分析与趋势分析
   智能检索
   全文检索
   网页快照
   文件编码自动识别
   分布式检索系统,不限节点

 

 

功能特色 
 
网络爬虫
  支持广度与深度搜索算法
  支持用户名与密码自动登录
  验证码处理
  图片及其它相关文件自动下载

索引器
  索引形式与格式自定义
  支持从数据库直接索引
  支持直接保存入数据库,自定义隐射关系

分词器
  上百万精选词库
  基于语义分析,词性、词频标注
  人名、地名、单位名自动识别、未登录词识别
  支持自定义词库

接口
  提供查询、索引维护、应用开发接口
  提供JAVA、ASP.NET、PHP、Perl多语言接口

其它特色
  支持外部插件 
 

全文检索和数据库应用最大的不同在于:让最相关的头100条结果满足98%以上用户的需求
 kmpro全文搜索引擎数据库
索引将数据源中的数据都通过全文索引一一建立反向索引对于LIKE查询来说,数据传统的索引是根本用不上的。数据需要逐个便利记录进行GREP式的模糊匹配,比有索引的搜索速度要有多个数量级的下降。
匹配效果通过词元(term)进行匹配,通过语言分析接口的实现,可以实现对中文等非英语的支持。使用:like "%net%" 会把netherlands也匹配出来,多个关键词的模糊匹配:使用like "%com%net%":就不能匹配词序颠倒的xxx.net..xxx.com

匹配度

有匹配度算法,将匹配程度(相似度)比较高的结果排在前面。 没有匹配程度的控制:比如有记录中net出现5词和出现1次的,结果是一样的。

结果输出

通过特别的算法,将最匹配度最高的头100条结果输出,结果集是缓冲式的小批量读取的。返回所有的结果集,在匹配条目非常多的时候(比如上万条)需要大量的内存存放这些临时结果集。

可定制性

通过不同的语言分析接口实现,可以方便的定制出符合应用需要的索引规则(包括对中文的支持)没有接口或接口复杂,无法定制

结论

高负载的模糊查询应用,需要负责的模糊查询的规则,索引的资料量比较大使用率低,模糊匹配规则简单或者需要模糊查询的资料量少

 

kmpro搜索引擎
 其他开源全文检索系统
 
增量索引和批量索引
 可以进行增量的索引(Append),可以对于大量数据进行批量索引,并且接口设计用于优化批量索引和小批量的增量索引。 很多系统只支持批量的索引,有时数据源有一点增加也需要重建索引。
数据源
 kmpro搜索引擎没有定义具体的数据源,而是一个文档的结构,因此可以非常灵活的适应各种应用(只要前端有合适的转换器把数据源转换成相应结构),  很多系统只针对网页,缺乏其他格式文档的灵活性。
索引内容抓取
 kmpro搜索引擎的文档是由多个字段组成的,甚至可以控制那些字段需要进行索引,那些字段不需要索引,近一步索引的字段也分为需要分词和不需要分词的类型:
   需要进行分词的索引,比如:标题,文章内容字段
   不需要进行分词的索引,比如:作者/日期字段  缺乏通用性,往往将文档整个索引了
语言分析
 通过语言分析器的不同扩展实现:
可以过滤掉不需要的词:an the of 等,
西文语法分析:将jumps jumped jumper都归结成jump进行索引/检索
非英文支持:对亚洲语言,阿拉伯语言的索引支持  缺乏通用接口实现
查询分析
 通过查询分析接口的实现,可以定制自己的查询语法规则:
比如: 多个关键词之间的 + - and or关系等  
 
并发访问
 能够支持多用户的使用 
 


推荐到鲜果: 查阅更多相关主题的帖子: KM人物 KM案例 知识管理 知识地图 知识管理系统

评论


发布者 cge8868
2008-7-12 17:22:35



发布者 kmpro
2008-7-14 13:16:37



发布者 tdk969
2008-9-3 21:50:10


您正在以 匿名用户 的身份发表评论  快速登录
(不得超过 50 个汉字)
       看不清,换一个
提示消息
(输入完内容可以直接按Ctrl+Enter提交)