solr中文分词器,
1、mmseg4j
把jar包放到webapp\WEB-INF\lib目录下
schema加入
<fieldType name="textComplex" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/> </analyzer> </fieldType> <fieldType name="textMaxWord" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" /> </analyzer> </fieldType> <fieldType name="textSimple" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic" /> </analyzer> </fieldType>
tokenizer 的参数:
-
dicPath 参数 - 设置自定义的扩展词库,支持相对路径(相对于 solr_home).
-
mode 参数 - 分词模式。
本文转自 yntmdr 51CTO博客,原文链接:http://blog.51cto.com/yntmdr/1728616,如需转载请自行联系原作者
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。