• 创建:2007-8-28
  • 文章:55
  • 评论:17
  • 访问:18877
  •  
网络矿工是一款强大的专业数据采集器,通过用户自定义配置,可快捷的将网页数据结构化存储到本地,并可输出到数据库、发布到网站。网络矿工可应用于数据挖掘、垂直搜索引擎、网站信息聚合、企业口碑监测、舆情信息监测等领域。
网络矿工致力于数据采集领域,并为数据采集工作提供了完整的工具,网络矿工不仅可以实现数据采集,同时还提供了数据加工编辑工具,以实现采集数据的加工操作,按照用户的数据应用需求完善数据质量,直接输出高质量数据。
网络矿工提供了多级导航采集、级联采集、多页采集、图片下载、OCR识别、代理轮询、可视化规则配置、直接入库等多种有效的采集功能,网络矿工支持MSAccessMySqlMSSqlServer数据库,支持web发布数据,同是还提供了数据加工发布套件,为您的采集工作提供有力的支撑。另外,网络矿工定期还会根据用户应用的实际情况推出采集任务配置案例指导、视频培训多种教程,帮助用户快速掌握软件……
编辑 | 阅读全文(176) | 回复(0),一孑 发表于 2012-3-26 23:23

2010-2-20 13:41 | [转帖]数据防采小建议

理论上说,数据防采的可能性并不大,这是由本身的技术所决定的。熟悉技术的人都知道,在打开网页的时候,实际是已经将网页数据缓存到本地了,只是通过浏览 器进行解析而已,这就决定了这些网页数据的可见性,既然可见,就可以获取。但对于任何事情,都讲究一个性价比,所以,从根本上无法杜绝数据被采,那么我们 就增加其采集的成本,通过此种方法使其达到不可承受的程度,也就从另一个角度来讲解决了防采的问题。事务是两面性,增加其采集成本的同时,也会增加自身的 网站制作成本,这个不要被忽略掉。
介绍几种常用的防采方法:
1、将关键信息作特殊处理:
     譬如:电话、电子邮件等非常有用的信息。特殊处理可以由多种方法,1)图片化,将电话支撑图片,然后通过网页加载。此种方式最为有效,因为对于数据采集而 言尽管可以下载图片,但大部分采集软件都不具备OCR识别功能,即便后期通过OCR工具识别……
编辑 | 阅读全文(468) | 回复(0),一孑 发表于 2010-2-20 13:41

2010-2-5 11:31 | [原创]2009总结 很郁闷

2009年初对以前自己做的采集软件重新开始进行修改完善,经过三个月修改完毕,命名为“Soukey采摘”,版本定位0.8,开始推广,软件开源免费。同时于09年3月底在Sourceforge上建立项目。并于2009年4月开通www.yijie.net,作为项目网站,用于软件推广运营。
www.yijie.net开通之初,提交网站备案,却无法进行网站备案信息录入,原因是已经存在网站主体信息,电话咨询,答复:网站主体相同,可用于多个域名。信之,却忘了记录其身份信息。
经过三个月网友的反馈,修改了大量软件bug,并进行了部分功能的优化,与6月底正式推出soukey采摘1.0。同时,着手网络矿工的开发。
又经过四个月的艰苦奋斗,网络矿工正式开发完成,进入试用阶段,同时soukey采摘已经升级为1.6版本,在这个阶段,为了保护自己的开源软件不被侵害,于9月底正式提交版权申请,并于10月……
编辑 | 阅读全文(320) | 回复(0),一孑 发表于 2010-2-5 11:31

2010-1-29 14:24 | [原创]胡扯几句房价

经济我不懂,术业有专攻么。所以房价也就更不懂了,有人说高,要降,有人说低,要涨,不知道他们的判断依据是什么,我只用我这个外行的眼光来看一下,顺便扯几句。
我是不希望政策干预,如果真能涨,那就让它涨,说明有行情,说明大家都有钱,就我没钱。如果真的降,那说明房价确实已经很高了,高到让我这种小老百姓无法承受了,高到影响社会安定了,那就降。但如果总是人为干预,那么房价就会永远处于这么一个尴尬的价位,让人痛苦不堪。
之所以尴尬,是因为像我这种小老百姓在倾其两代人的积蓄后还是可以买的起一套小户型,倾其老一代人付首付,倾其我这一代来还房贷。现在的价位就是这么一个痛苦的价位。如果在高,高到倾其两代人都无法承受,那么刚性需求再强,房价也会崩溃,道理很简单,没钱买,谁爱玩谁玩,玩都最后没人接盘就是崩盘。如果价位再低,那么也没意思,因为房地产挣得少了,他们不干,所以就开始制造各种假象来混淆视听,保持一个高价位,继续……
编辑 | 阅读全文(264) | 回复(1),一孑 发表于 2010-1-29 14:24
很多时候大家在谈发展的时候,都会感叹硬件容易软件难。同样项目管理也是如此,很多PM从早忙到晚,回家后还“不得安宁”,甚至做梦都会梦到项目如何如何,真是心力憔悴,但即便如此,项目好像也并不会有多大的好转。往往一个项目做下来,感觉好像扒成皮似地,累,除了累还是累,而且还真是累。
无语,还是无语。
其实,任何人都知道,项目是要团队来完成的,每个人在团队中都有自己的位置,都有自己的职责,任何人没有按预定计划完成任务,就会影响整个团队。项目团队就类似木桶原理。大家都晓得。
但大家却不晓得,每个人也是项目的管理者,每个人都有权、有责任管理项目。这个职责往往会被忽略,主要原因,就是PM没有吧这个责任分配下去,或者说,没有强调大家手中的这个权利。
笔者始终认为管理起始管的就是意外,如果一个项目没有意外,那只要定好一个计划就完事大吉了。正是因为有各种各样的“意外”,才……
编辑 | 阅读全文(679) | 回复(1),一孑 发表于 2010-1-11 16:17

2009-12-24 10:18 | 也来说 网站备案

关键字:互联网运营
昨晚像往常一样,打开firefox,敲入:www.*****.net,恩??!!页面怎么被篡改成企业邮局页面,难不成ISP又出问题了,连接FTP,成功,晕。幸好辛勤的客服还在QQ上挂着,赶紧联系,告知ICP备案有问题,再晕一次。
我自认为是一个老实人,所以在2年前第一个网站的时候就已经申请了ICP备案了。哦,想起来了,当初在开通第二个网站的时候,我又去做备案,但网站上已经无法申请,同一身份只能申请一个备案,且原有通过的备案信息无法修改,所以打电话去咨询,告知:如果是网站经营者是同属一个主体(个人或企业)一个备案是可以的,且我的第一个网站已经关闭了,所以也就放心了,自信满满至昨天。
经过昨晚的恶补,终于了解:
如果你手头有两个网站运营, 是必须要做两个备案的,第一个被是可以自己申请,但第二备案是无法通过备案管理系统完成,是必须通过接入商替你增加网站信息来完成备案申请的。一个备案号只能用于一个网站,……
编辑 | 阅读全文(263) | 回复(0),一孑 发表于 2009-12-24 10:18
[if gte mso 9]> Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE MicrosoftInternetExplorer4 [if gte mso 9]> ……
编辑 | 阅读全文(355) | 回复(0),一孑 发表于 2009-11-17 17:22

2009-11-11 16:58 | [原创]无题

[if gte mso 9]> Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE [if gte mso 9]> ……
编辑 | 阅读全文(228) | 回复(0),一孑 发表于 2009-11-11 16:58
信息系统项目管理师的考试成绩终于出来了,45 53 47,一声叹息, 60分万岁真理永不变,总结一下考试心得,希望可以帮到备战于下半年考试的战友。
信息系统项目管理师考试参加过两次,第一次大意了,就准备了两周时间,果不然折在综合知识这门上,07年上半年,好像是43分, 不想再考,但此次是公司组织,所以就又上了,提前一个月开始备考,提前两周坚持每晚看书,提前两天请假在家复习,从成绩上可以看到,还是大意了,只不过这 次运气好了点。但细细想来,为了这次考试,至少做了一件非常有意义的事情,就是把这么多年混迹于这个行业所掌握的知识整理了一遍,把做过的项目又重新仔细 的思考了一遍,不敢谈得与失,但如果说没有这样一个压力或一个目标,这个沉淀的过程是不会有的。好了,开始进入正题。
1、  提早动手:如果下定决心了,那就及早动手,最好可以在你报名之后就开始备考,哪怕一天就看10分钟,但一定要提早动……
编辑 | 阅读全文(692) | 回复(0),一孑 发表于 2009-8-5 11:22
通过前面的三篇文章,基本上已经对需求的建立进行了阐述。至此,应该说已经得到了需要管理的内容——系统需求。但在继续之前还想再谈一个问题:请尊重用户需求。
需 求的分析方法不重要,需求到底产生什么样的成果也不重要,需求验证的方法更不重要,重要的是用户的真实想法是否得到了体现,需求工程师是否真的把用户的需 求真正的放在心里,站在用户角度想着替用户解决问题。万事开头难,这个阶段可以说就是项目的“头”,如果你不尊重用户的需求,后面的工作无论做的如何精 细、如何的高质量都是无用的。道理很简单,大家都理解,但是否都可以做到不敢保证。至少在笔者经历的项目中这种问题不止一次发生。所以,在此提个醒。
需求输出完成后,需要建立一套方法来对需求进行有效管理。通常的方法是建立需求矩阵。通过对需求矩阵的管理实现需求跟踪管理。 需求矩阵是一个比较好理解的东西,简单的讲,需……
编辑 | 阅读全文(281) | 回复(0),一孑 发表于 2009-7-14 16:35
关键字:需求
上一篇主要说明了需求分析的内容,并强烈推荐了一篇非常好的文章,同时也根据笔者的经验简单的阐述了容易出现的一些问题。在此,笔者还想再次强调两点(也算是和大家沟通所得吧):
1)       尊重实际的业务:尊重业务,不忽略任何细节,从而分析得出一致的系统模型。
2)       梳理规范的业务:此处的规范是为了管理而规范,不是系统规范。没有计算机,没有软件,照样会有规范的管理流程,有了计算机,有了软件,照样还会有不规范的操作。
1.       需求输出
如果说在需求分析过程中,没有偷工减料,成果的输出是一件很容易的事情。而且当前有很多的需求/软件规格的模版,借助模版,整理分析成果并不是一件难事。在具体动&ldq……
编辑 | 阅读全文(391) | 回复(0),一孑 发表于 2009-6-24 14:32
关键字:需求管理
 
需求获取只是一个收集信息的过程,是最大化的获取用户信息,且要确保收集到的信息是有效的,尽管提到需求分析是对已获取用户信息的分析,但无可避免的是这种分析是无处不在的,在与用户的沟通、在与用户的谈判等等,所以,很多时候业务领域/项目领域的专家在这个阶段会有先天的优势,但就像前面所谈,需求获取和需求分析通常都是同步进行的,这个两个过程是无法分开的。
1)         需求分析(***
需求分析应该是建立在业务分析层面上,但在这个过程中又无可避免会涉及到系统的问题(以用户为中心,业务场景及用例场景的描述)。从笔者的角度来看,需求分析主要是侧重于业务逻辑本身、潜在的业务需求,同时还需了解业务本身的发生频率、重要级别等内容。总之,需求分析就是对业务本身的一种深入理解,与需求获取同步的也多是这个过程。这个过程……
编辑 | 阅读全文(362) | 回复(1),一孑 发表于 2009-6-15 14:40
关键字:项目经理
准备好好花点时间详细的说明一下需求的管理,并结合曾经做过的项目,阐述一下需求阶段内容。尽管是准备花点时间来仔细斟酌考虑这部分内容,但还是要说,其中的方法或者观点并不一定正确,只是根据经验总结而得。马上进入正题。
需求的重要性是显而易见的,在此仅说两点来再次证明需求的重要性:1)、需求工作是在确定项目边界;2)、项目质量的主要衡量标准就是是否满足用户的需求。所以,需求没做好,意味着项目范围是不可控的,质量也是无法衡量的。
对于软件项目而言,需求管理可以分为两个内容:需求建立需求跟踪。 需求建立又可分为需求获取、分析、输出和验证。需求跟踪可分为需求跟踪及变更控制。在需求建立阶段,主要参与的人员就是需求工程师(注意是“主要”,根据 项目的不同,及管理模式的不同,此阶段可能会有其他角色的人员参与,笔者认为合理的做法会在后面中进行说明),需求跟踪则参与的人员会多一些,但也会……

编辑 | 阅读全文(428) | 回复(0),一孑 发表于 2009-6-11 11:24
使用win2003至今已经五年了,XP极少使用,Vista从来没有用过(名声在外,不敢尝试),长时间的使用已经对win2003审美疲劳了加之本本的显卡不支持win2003(实际在此之前已经给自己找了无数理由,只有这个两个理由勉强说服自己可以升级win7,呵呵)终于将系统更换成了windows 7.装好win7后,突然有种89年前的对新系统的那种激动,很兴奋,真搞不明白,都做了这么多年的技术了,为什么还会这样。我安装的是win7 7100
Ø  第一感觉:
对于我这种常年在windows经典环境下的使用者来讲,win7的风格简直可以用超炫来形容。尤其在启动Aero Peek效果后,真的让人很爽。尤其是工具栏的重新设计,给人的第一感觉就是眩。
Ø  操作感受:
1 工具栏分组更加科学,启动了Aero Peek效果后,可直接查看程序缩略……
编辑 | 阅读全文(745) | 回复(0),一孑 发表于 2009-6-9 13:10
关键字:IT项目经理
项目失败的原因有很多,具体原因需要根据实际的项目进行分析。就好像幸福的家庭都是相似的,不幸的家庭确各有各的不幸。不谈原因,只谈“为什么”,准确的说是“为什么容易失败”?作为PM而言,对此应该有较深的体会(如果PM也想不明白的话,那可有点危险了),但很多时候,别人还是会问,项目为什么会失败,难道对项目的一点小小的改动就是导致项目失败么?这其中的别人,有时甚至会包括你的领导、你的团队。
说到软件项目容易失败,首先是其特性所决定的。软件具有不可见、无形的特点,这就决定了 软件生产的监控、质量的量化都无法通过一些简单的方法或手段来实现(当然通过一些方法还是可以达到要求的,但成本的大幅提高并不是每个项目都可承担的,后 面会谈到此方面的约束),同时也正是因为此,导致了不同的人员对待同一问题或同一事由会产生不同的理解,而人又是生产软件的主要“工……
编辑 | 阅读全文(282) | 回复(0),一孑 发表于 2009-5-26 11:52
(共 55 条) 上一页 1 2 3 4 翻页至

仅列出标题