畅享博客 > 人月神话的Blog > 软件工程 > 搜索引擎资源-转载
2007-7-17 13:14:40

搜索引擎资源-转载

国外开发的相关程序


1、Nutch

官方网站 http://www.nutch.org/
中文站点 http://www.nutchchina.com/

最新版本:Nutch 0.7.2 Released

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,可以建立自己内部网的搜索引擎,也可以针对整个网络建立搜索引擎。自由(Free)而免费(Free)。


2、Lucene

官方网站 http://lucene.apache.org
中文站点 http://www.lucene.com.cn/

Lucene 是apache软件基金会 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包[用Java写的],即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。


3、Larbin: http://larbin.sourceforge.net/index-eng.html

larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。


国内开发的相关程序


1、SQLET - 开放源码的中文搜索引擎

官方网站 http://www.sqlet.com/

SQLET,是Search & Query &Link, 加后缀 let,表示小的,小型的意思.打算建立一个能搜上亿张网页的基于主题功能的中文搜索引擎.支持3种索引方式:MySql_table_Index, Lucene_Index,SQLET_Index.网页抓取可以保存在文件系统及数据库里。自带WebServer.


2、菲度垂直搜索引擎代码

菲度http://www.faydu.net 为一个垂直在线搜索的演示版,主要对国内一些购物站点进行搜索整理,现在开源测试版本的代码,供大家讨论。下载说明:

1》因为本程序是在服务器上运行,是在多个处理器下运行的,个人电脑上请控制线程数量

2》包含一个data 的数据库 还原到sql server

3》收集完毕默认在bin目录有licene生成的反排的索引文件

4》下载地址:http://www.faydu.net/download/code.rar


开发日期:2006-4-18

来源:http://blog.csdn.net/faydu/archive/2006/04/18/667997.aspx
语言:VB.net(c#)


推荐到鲜果:

评论

您正在以 匿名用户 的身份发表评论  快速登录
(不得超过 50 个汉字)
       看不清,换一个
提示消息
(输入完内容可以直接按Ctrl+Enter提交)