Archive for Апрель 7th, 2017

Токенизатор для Elasticsearch для русского языка

Пятница, Апрель 7th, 2017

Нужно было написать custom tokenizer, который бы делал следующие:

оставляет только русские и английские буквы
не забудет про букву ё
оставит так же тире(-) и знак подчеркивания (_)
цифры

Popularity: 4%

Popularity: 4%