Токенизатор для Elasticsearch для русского языка
By admin ~ Апрель 7th, 2017. Filed under: Поисковые машины.
Нужно было написать custom tokenizer, который бы делал следующие:
- оставляет только русские и английские буквы
- не забудет про букву ё
- оставит так же тире(-) и знак подчеркивания (_)
- цифры
Вот что получилось в итоге:
"tokenizer": { "test_tokenizer": { "type": "pattern", "pattern": "[^0-9\_\-a-zA-Zа-яА-ЯёЁ]", "flags" : "CASE_INSENSITIVE" } }
Использовать в секции “analyzer”:
как “tokenizer”: “test_tokenizer”
Popularity: 26%
Похожие статьи: