欢迎投稿

今日深度:

solr中文分词,

solr中文分词,


1.使用solr5.1自带的中文分词器
2.首先将下载解压后的solr-4.9.0的目录里面F:\tools\开发工具\Lucene\solr-4.9.0\contrib\analysis-extras\lucene-libs找到lucene-analyzers-smartcn-4.9.0.jar文件,
3.将它复制到solr的Web应用程序里面D:\apache-tomcat-7.0.54\webapps\solr\WEB-INF\lib,
4.修改schema.xml,让solr能够支持中文的分词
<fieldType name="text_smart" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
      <!-- 此处需要配置主要的分词类 -->
        <tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
        <!--
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
        <filter class="solr.LowerCaseFilterFactory"/>
        -->
        <!-- in this example, we will only use synonyms at query time
        <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
        -->
        <filter class="solr.SmartChineseWordTokenFilterFactory"/>
      </analyzer>
      <analyzer type="query">
      <!-- 此处配置同上 -->
        <tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
        <!--
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        -->
        <filter class="solr.SmartChineseWordTokenFilterFactory"/>
      </analyzer>
</fieldType>


schema.xml

www.htsjk.Com true http://www.htsjk.com/solr/36841.html NewsArticle solr中文分词, 1.使用solr5.1自带的中文分词器 2.首先将下载解压后的solr-4.9.0的目录里面F:\tools\开发工具\Lucene\solr-4.9.0\contrib\analysis-extras\lucene-libs找到lucene-analyzers-smartcn-4.9.0.jar文件, 3.将...
相关文章
    暂无相关文章
评论暂时关闭