Токенизатор для Elasticsearch для русского языка



By admin ~ Апрель 7th, 2017. Filed under: Поисковые машины.

Нужно было написать custom tokenizer, который бы делал следующие:

  • оставляет только русские и английские буквы
  • не забудет про букву ё
  • оставит так же тире(-) и знак подчеркивания (_)
  • цифры

Вот что получилось в итоге:

"tokenizer": {
    "test_tokenizer": {
        "type": "pattern",
        "pattern": "[^0-9\_\-a-zA-Zа-яА-ЯёЁ]",
        "flags" : "CASE_INSENSITIVE"
    }
}

Использовать в секции “analyzer”:

как “tokenizer”: “test_tokenizer”

Popularity: 5%

Похожие статьи:

Оставьте комментарий: