solr文本分析，

和通数据库htsjk.Com2019-08-03 00:06 来源:未知阅读:9926 评论 381 热度5

标签：

solr文本分析，

Solr文本分析包括以下组件：

分析器（Analyzer）、字符过滤器(CharFilter)、分词器(Tokenizer)、分词过滤器（TokenFilter）.

分析器将分词器和分词过滤器链组合成一个组件。

<fieldType name="nametext" class="solr.TextField">
    <analyzer type="index">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StandardFilterFactory"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.StopFilterFactory"/>
        <filter class="solr.EnglishPorterFilterFactory"/>
    </analyzer>
</fieldType>

标准分词器 · StandardTokenizer
移除停用词 · StopFilterFactory
小写转换 · LowerCaseFilterFactory
折叠重复字母 · PatternReplaceCharFilterFactory
对空格分词 WhitespaceTokenizerFactory WordDelimiterFilterFactory(保留主题标签、提及符号、连字符)
移除变音符号 ASCIIFoldingFilterFactory
提取词干 KStemFilterFactory PorterStemFilterFactory
同义词 SynonymFilterFactory