1 定义

analyzer 分词器,专门处理分词的组件,可以在创建索引的时候在setting中替换

  • Ananlysis 是把全文转换为单词
    • Character Fliters 处理原始文本,如出去html标签等
      • HTML strip 去除html标签
      • Mapping 字符串替换
      • Pattern replace 正则替换
    • Tokenizer 分词,按照规则切分单
      • standard
      • simple
      • whitespace
      • keyword
      • path hierarchy 按照目录切分
    • Token Filters 将切分后的单词加工,如转换大小写,同近义词等
      • stop
      • lower case

2 自定义分词器