畅享博客 > 人月神话的Blog > 人生感悟 > 全文搜索能否代替关键字搜索
2007-7-17 13:18:44

全文搜索能否代替关键字搜索

自己硬盘上的资料收集太多了,如何进行整理和学习?已经在需要的时候如何能够快速的检索到自己关注的资料文件就成为了一个十分重要的问题.
 
首先我们说资料收集下来后应该及时的进行整理和分类,对于类别的层次一般也不适合建立的太深,一般3-5层比较适合.比如可以先按照经济,文学,开发技术,管理咨询,生活等大类进行划分.然后再对大类进行小类和次小类的细化.这样分到最底层类后文件数量一般就会小于100个,查找就比较方便了.
 
栖息谷曾专门发过一遍<给疯狂下载资料的朋友>的一篇贴子,讲的也是我们经常不管资料是否对自己有用,都照单全收下载到自己硬盘上,结果很多资料可能下载下来后根本一次都不会看或者根本用不上.所以这里个人的建议是,首先应该明确的是自己关注的方向和领域,尽量不要去下载自己不关注领域的资料;另外还有就是很多资料其实质量也不是很高,或者可以用粗制滥造来形容,因此对这种资料下载下来阅读后不要有任何怜惜,要及时删除掉.
 
自己在硬盘上的资料分类整理好后,自己要定期的进行分析和整理.我曾经多次装过google的全文搜索引擎,但最后都卸载掉了,原因是全文搜索到的内容往往并不是我关注的内容,或者说我关注的内容根本没有排列在前面.google的网页搜索可以根据大众的关注度对网页进行排名,但是在单机的桌面搜索中却无法得到关注度这一重要的信息.比如我们对单元测试这个关键字进行搜索的时候,google会把你装的某个测试工具的所有帮助文件的html全部搜索到结果的最前面,而你需要的可能是单元测试介绍和应用的ppt.
 
所以在这里我们开始关注关键字这个概念,就像我们写学术论文一样,每篇文章都要写相关的关键字,对于一篇文章而言重要的关键字一般也不会超过10个,也就是说如果你关注的内容不在这10个关键字内的话,那文章基本就不会带给你太多的参考价值,或者说看了也是浪费自己的时间.
 
因此搜索的层次应该是从粗到细的三层,一个是直接的文件名的搜索,这个直接用操作系统系统的资源管理器搜索即可;第二是基于关键字的搜索;第三才是全文搜索.一般我们对搜索应用到关键字搜索就足够了,但应用关键字搜索最大的问题就是要对每份我们感兴趣或关注的文档整理出这些关键字,作为我们后续搜索的依据信息.很简单一个例子,比如你现在读了收集的一个项目管理的资料ppt文档,阅读后觉得后期可以借鉴到的是文档中关键路径的例子,挣值的计算,风险管理的内容.那这个ppt应该整理出来的关键字就应该只有项目管理,关键路径,挣值,风险管理等几个内容,你后期的搜索只有匹配了这几个关键字才会搜索到.这就大大的提高了搜索的命中率和搜索的质量.
 
html网页本身也是非结构化的信息,虽然google基于关注度和点击率的方式取得的巨大成就.单仍然无法解决语义的问题,因此现在也在提智能搜索和第三代搜索引擎的概念.其目的都只有一个,快速并高质量的提供给搜索者关注的网页信息.
 
如何对每个资料文档整理相关的关键字,以及关键字存储在哪里是一个要考虑的问题,最近已经下载了MyBase,但相关的功能还没有仔细进行研究.
 

推荐到鲜果:

评论

您正在以 匿名用户 的身份发表评论  快速登录
(不得超过 50 个汉字)
       看不清,换一个
提示消息
(输入完内容可以直接按Ctrl+Enter提交)