全文检索

阅读 / 问答 / 标签

全文检索工具有哪些?

一、LuceneLucene是一个全文检索的工具包,是一堆jar包,不能单独运行,不能独立对外提供服务。优点:部署简单,它只是应用程序的一个依赖包,不需要独立部署缺点:1、应用只能单服务器部署,集群部署有问题,全文索引需要在多台应用服务器间同步,是有状态的请求。2、编写的代码量会比较大,而且要考虑性能问题。二、MySQL 5.7.6以上从MySQL 5.7.6开始,MySQL内置了ngram全文检索插件,用来支持中文分词,并且对MyISAM和InnoDB引擎有效。优点:开发简单;不需要额外引入Elasticsearch这样的搜索引擎服务器。缺点:1、中文分词不准确2、性能不高3、数据量不大三、MySQL+IK分词器在MySQL5.6以下,只有MyISAM引擎支持全文检索。在MySQL5.6以上Innodb引擎也提供支持全文检索。相应字段需要建立FULLTEXT索引。MySQL5.7.6以下只支持英文全文索引,不支持中文全文索引,需要利用IK分词器把中文段落拆分成单词。优点:比方案2中文分词更准确;不需要额外引入Elasticsearch这样的搜索引擎服务器。缺点:1、性能不高2、数据量不大四、Elasticsearch搜索引擎互联网公司基本都在使用,性能高,支持的数据量大。缺点:1、需要一定的学习成本2、需要独立部署,需要集群部署

pubmed支持全文检索吗

关键词检索可以,全文检索估计有点困难。PubMed医学文献检索服务系统,其检索内容包含MedLine,PreMedline(不含Mesh检索主题词)医学文献数据库及其他电子出版文献。1.PubMed基本检索方式(BasicPubMedSearch)进入PubMed基本检索方式主页,在检索框中可以输入任意词,包括文献作者,出版杂志等:键入一个或多个检索词(可以为任意词),如proteindisulfideisomerase,也可以输入缩略名如pdi等;输入多个词时,可自动识别成词组;但词数太多时,则以逻辑与的方式识别,如可以将proteindisulfideisomerase识别成一个词,也有可能将其识别成“proteinANDdisulfideANDisomerase”尤其是出现数字等符号时不易识别成词组;对PubMed不能识别检索的词组,需加引号强调,如键入: “InsightII”以文献作者方式检索,作者名的输入格式为: 姓+名 如输入:Freesman DJ ,其中“姓”为全称,“名”则为首字母简写形式(“名”可以省略);键入的杂志名称可以是全名,也可以是杂志名的MedLine缩写格式或ISSN杂志号(见期刊浏览)。检索时可在词尾加“*”号检索所有具有同样词头的词。如键入:biolog* 可查得biology或biological等词。