欢迎投稿

今日深度:

solr中文分词器,

solr中文分词器,


1、mmseg4j


把jar包放到webapp\WEB-INF\lib目录下


schema加入

<fieldType name="textComplex" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
    </analyzer>
</fieldType>
<fieldType name="textMaxWord" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />
    </analyzer>
</fieldType>
<fieldType name="textSimple" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic" />
    </analyzer>
</fieldType>



tokenizer 的参数:

  • dicPath 参数 - 设置自定义的扩展词库,支持相对路径(相对于 solr_home).

  • mode 参数 - 分词模式。










本文转自 yntmdr 51CTO博客,原文链接:http://blog.51cto.com/yntmdr/1728616,如需转载请自行联系原作者

www.htsjk.Com true http://www.htsjk.com/solr/35234.html NewsArticle solr中文分词器, 1、mmseg4j 把jar包放到 webapp\WEB-INF\lib目录下 schema加入 fieldType name="textComplex" class="solr.TextField" positionIncrementGap="100"    analyzer        tokenizer class="com.chenlb.mmseg4...
相关文章
    暂无相关文章
评论暂时关闭