新闻来源:www.lupaworld.com
前些天看到gsearch发布,虽然觉得新闻稿很恶心,但还是挺开心的,毕竟又多了款软件,于是乎下载安装,但结果却令人大失所望,有种被骗的感觉,简直不把大家当人看。所以写点评论。
这款所谓的第一个Linux平台的桌面搜索软件,这款2006开源软件竞赛的获奖作品,这款由中国科学院计算技术研究所博士生开发的软件在正是发布后就遭到了大量开源爱好者的鄙视。
首先就Linux而言。桌面搜索软件beagle早就是Gnome项目中一款经典的本地搜索工具。还有国内的pycds ,一款用Python开发的文件检索工具。还有slocate工具也是相当好用的搜索工具。所以无论无何gsearch也称不上是第一个。
再者查看其源码,只有Makefile进行编译管理,没有configure,没有i18n支持,没有多平台支持。不知道作者自己用什么环境编译和开发的,反正我们在ubuntu,magiclinux,fedora上编译或者执行那个bin包都无法通过或运行。
浮躁之风盛行,作为中科院博士,你可以学学scim做一个真正有用的软件。你吹嘘自己的windows版火风软件用户超过100万,吹嘘自己的gsearch性能有多优异,这又有何用。
如果“单纯”的将此软件发布,然后由大家配合进行完善修改,那不是挺好吗?何必要摆出一个藐视天下的姿态呢?
顺便看看这位 首席的风采吧
http://www.gongcaichun.info/GongCaichun.htm
--------------------------------------------------以上引用浙江省Linux专业委员会副主任邵伟的原话
我们来看看伟大的智慧星二号作者龚才春计算所首席博士的个人简介
龚才春,男,湖南益阳人,1978年出生,中国科学院计算技术研究所博士生 ,承蒙实验室师弟师妹看得起,赐予我“计算所首席博士”的称谓,这就是龚首席的来由。龚首席主要从事知识搜索与短文本舆情计算的研究。 龚首席开发的主要文本处理工具软件有: 基于双数组的快速中文分词; 大规模词典的近似完美哈希函数; 基于双数组结构的多级编码识别系统; 海量数据的快速查重; 短文本的快速近似去重; 短文本的快速聚类。
再来观赏下他伟大的GSearch的介绍
'中国科学院计算技术研究所龚才春博士开发了Linux平台下第一款高效桌面搜索软件--GSearch。
gsearch是Linux平台下第一款高效桌面搜索软件。gsearch采用了高效并行硬盘扫描算法,实现Linux下文件系统的高速扫描和索引。 gsearch使用高效索引实现文件属性信息的快速搜索,采用高效的模式匹配算法实现文本文件内容的搜索。gsearch对文件属性信息的搜索一般在只需 要几毫秒,对文件内容的搜索视候选结果文件的数量和大小,搜索时间在100毫秒到10秒不等。gsearch在搜索时耗费内存一般在1M左右,对文件内容 的搜索时耗费内存在5M左右,运行结束后不占用任何内存。
gsearch是Linux平台下第一款快速桌面搜索软件,gsearch桌面搜索整合了高效的硬盘扫描技术和先进的索引技术,实现对 Linux文件系统的快速扫描和索引;gsearch采用最先进的模式匹配算法实现文件内容的快速搜索,既保证了搜索的快速,又不会耗费太多宝贵的硬盘空 间和内存空间。gsearch具有如下特点:
功能强大:支持多关键词检索、通配符模糊检索、精确检索、复合检索、文件类型检索;支持文件内容检索;支持用户设定索引目录。
性能卓越:一般搜索可在数毫秒内完成,复合查询也可在不超过20毫秒的时间内完成,对文件内容的搜索一般也可在几秒钟内完成。对含有80多万文件、容量为1000G的硬盘,扫描和索引整个硬盘文件系统只需要12秒左右。
短小精悍:用不到95K的程序完成本地文件系统的快速扫描、高效索引、查询解析、文件检索、结果过滤、结果显示等操作。对一般用户的机器建立索引,索引文件总共在30M左右,运行时消耗内存不超过5M。
配置方便: gsearch用户可以非常方便地实现各种配置,包括扫描目录的配置、扫描频率的配置、文件类型的配置等。
gsearch是一款功能强大、性能卓越的Linux平台的桌面搜索软件,第一版已经完成如下功能:
支持通配符模糊搜索;
支持文件系统快速索引;
支持文件内容的快速搜索;
支持一个或多个关键词(单词、字母组合、字母、数字、汉字)搜索;
支持后缀名搜索(以点号.标志后缀名);
支持包含关键词、待搜索目录、文件修改时间和文件大小等的复合检索;
支持文件类型搜索(文本文件、图片文件、音视频文件、可执行文件);
支持用户选择特定目录进行索引和检索;
支持定期索引和手动索引。
gsearch由中国科学院计算技术研究所信息智能与信息安全中心龚才春博士设计和开发,对gsearch有任意意见或建议,均可与作者联系。作者 Email为:[email protected]; 更多信息请访问作者维护的gsearch官方网站:www.gongcaichun.info。
还有他本人对业界技术人员指责的回应
实现Linux下文件系统的高速扫描和索引。gsearch使用高效索引实现文件属性信息的快速搜索,采用高效的模式匹配算法实现文本文件内容的搜索。所有gsearch桌面搜索的宣传材料第二句就说明了gsearch的实现原理,作者根本没有隐瞒gsearch未对文件内容建立索引的事实。相反,龚才春反复强调:这个不是gsearch的bug,而是gsearch的创举。
gsearch是在火速桌面搜索的基础上开发出来的。作者龚才春以不同方式调查了300多位网友对桌面搜索的需求。结论是非常明显的:桌面搜索不应该索引文件内容全文,对于这点,大家可以参考一下龚才春在实验室做的一个报告--gsearch和火速桌面搜索的技术内幕,在龚才春网站上有下载。
至于为什么没有必要建立全文索引,大致有这么几点理由:
其一:索引文件内容全文耗时巨大,资源占用非常严重。google桌面搜索第一版在我台式机上测试结果索引耗时8小时,索引文件大小将近900M,后台索引程序占用51M内存,新版本对我另外一台文件数目较少的机器测试结果,索引耗时52分钟,索引文件300M,后台索引进程占用21M。已有cpu空闲就启动索引进程。
其二:索引文件内容全文对用户机器硬盘损伤非常大,这个不用解释,当你知道一个程序时刻扫描你硬盘文件内容的时候,有80%的用户不愿使用了。我认识的很多人就是由于Google桌面搜索占用的资源和对硬盘的频繁扫描而不用google桌面了。
其三:用户真正需要感兴趣的文件更高概论处于编辑中,因此用户感兴趣的文件内容更容易过期。基于全文索引模式的桌面搜索引擎不可能解决索引更新问题。
其四:用户95%以上的查询是对文件名的查询,或者对文件名有特定模式。
其五:桌面搜索是搜索用户自己机器,因此用户一般对自己机器的文件结构比较了解,如果用户一般都知道搜索结果应该有的特征,如在某个特定盘符或目录下,某些特定后缀,文件名中含有特定模式,修改时间等。利用这些特征加全文实时扫描,速度完全可以满足用户需求。大家可以试用一下快乐超级搜索,虽然没有全文索引,对全文搜索还是比较快的。
因此,普通用户根据不能接受拿出几十M内存,几百M上G甚至好几G的硬盘空间,频繁的硬盘文件读写来满足搜索的需要,更不要说全文索引时的用户隐私问题。当用户知道商业桌面搜索的代价后,几乎所有用户都不觉得得不偿失。gsearch和快乐超级搜索的这种搜索方式目前也已经得到商业桌面搜索公司的认可。毕竟普通用户不是搜索引擎提供商,把web搜索引擎的技术直接拿到桌面搜索领域应该是Google、Baidu、Yahoo等公司对桌面搜索用户体验没有认真分析的结果。
注:cnBeta.com登载此文是出于传递更多信息,并不意味着本网赞同其观点或证实其描述。