[原创]搜索引擎在知识管理中的应用思路
海量信息,给我们带来苦恼!
1、 大量数据、文档、信息堆积,需要通过搜索引擎,能够直接找到文件中的关键信息。
2、 上了多套软件系统,每个都有自己的数据库,能否通过一个搜索引擎,跨越OA、ERP、MIS等系统里面,找到自己所需的信息?
解决方案
·JAVA内核的全文搜索引擎!
·为您解决海量信息检索、跨信息孤岛的搜索问题!
·支持word、excel、ppt、pdf、txt等多种文档格式的全文搜索!
![]() |
| 真正的全文检索,确保搜索准确率! 全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。 |
![]() |
| 强大的索引引擎,确保执行效率! 一个全文检索应用的优异程度,根本上由全文检索引擎来决定。因此提升全文检索引擎的效率即是我们提升全文检索应用的根本。 |
核心技术
搜索引擎是以中文信息处理技术与数据挖掘技术为核心技术,以智能检索、智能分析和智能处理为核心功能的产品,本公司产品基于如下核心技术模块:
(1)索引文件格式独立于应用平台。以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件。
(2)实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的。
(3)优秀的面向对象的系统架构,方便扩充新功能。
(4)强大的查询引擎,用户无需自己编写代码即使系统可获得强大的查询能力,实现了布尔操作、模糊查询(Fuzzy Search[11])、分组查询等等。
智能处理
网络爬虫/Spider技术
自动摘要
自动消重
信息指纹技术
自动索引、自动更新
自动正文抽取
智能分析
主体检测/追踪
关联分析与趋势分析
智能检索
全文检索
网页快照
文件编码自动识别
分布式检索系统,不限节点
功能特色
网络爬虫
支持广度与深度搜索算法
支持用户名与密码自动登录
验证码处理
图片及其它相关文件自动下载
索引器
索引形式与格式自定义
支持从数据库直接索引
支持直接保存入数据库,自定义隐射关系
分词器
上百万精选词库
基于语义分析,词性、词频标注
人名、地名、单位名自动识别、未登录词识别
支持自定义词库
接口
提供查询、索引维护、应用开发接口
提供JAVA、ASP.NET、PHP、Perl多语言接口
其它特色
支持外部插件
| 全文检索和数据库应用最大的不同在于:让最相关的头100条结果满足98%以上用户的需求 | |||||||||||||||||||||
|
kmpro搜索引擎
其他开源全文检索系统
增量索引和批量索引
可以进行增量的索引(Append),可以对于大量数据进行批量索引,并且接口设计用于优化批量索引和小批量的增量索引。 很多系统只支持批量的索引,有时数据源有一点增加也需要重建索引。
数据源
kmpro搜索引擎没有定义具体的数据源,而是一个文档的结构,因此可以非常灵活的适应各种应用(只要前端有合适的转换器把数据源转换成相应结构), 很多系统只针对网页,缺乏其他格式文档的灵活性。
索引内容抓取
kmpro搜索引擎的文档是由多个字段组成的,甚至可以控制那些字段需要进行索引,那些字段不需要索引,近一步索引的字段也分为需要分词和不需要分词的类型:
需要进行分词的索引,比如:标题,文章内容字段
不需要进行分词的索引,比如:作者/日期字段 缺乏通用性,往往将文档整个索引了
语言分析
通过语言分析器的不同扩展实现:
可以过滤掉不需要的词:an the of 等,
西文语法分析:将jumps jumped jumper都归结成jump进行索引/检索
非英文支持:对亚洲语言,阿拉伯语言的索引支持 缺乏通用接口实现
查询分析
通过查询分析接口的实现,可以定制自己的查询语法规则:
比如: 多个关键词之间的 + - and or关系等
并发访问
能够支持多用户的使用
推荐到鲜果: 查阅更多相关主题的帖子: KM人物 KM案例 知识管理 知识地图 知识管理系统





评论
发布者 cge8868
2008-7-12 17:22:35
发布者 kmpro
2008-7-14 13:16:37
发布者 tdk969
2008-9-3 21:50:10