Archive for the 'Поисковые машины' Category

Токенизатор для Elasticsearch для русского языка

Пятница, Апрель 7th, 2017

Нужно было написать custom tokenizer, который бы делал следующие:

оставляет только русские и английские буквы
не забудет про букву ё
оставит так же тире(-) и знак подчеркивания (_)
цифры

Popularity: 4%

Popularity: 4%

Маппинг символов в ElasticSearch

Четверг, Апрель 6th, 2017

Иногда нужно преобразовать в индексируемом тексте ё -> е. Или длинное тире в короткое.
Для этого нам поможет следующий фильтр:
char_filter:
whitespace_mapping:
type: mapping
mappings: ["\\u00A0=>\\u0020"]
Popularity: 4%

Popularity: 4%

Плагин для морфологии ElasticSearch

Четверг, Апрель 6th, 2017

Плагин находится здесь. Как я понял по примерам, основан на лемматизации. Ставить нужно отдельно.
Popularity: 4%

Popularity: 4%

Уменьшение размера индекса ElasticSearch

Четверг, Апрель 6th, 2017

По умолчанию, ElasticSearch, кроме поискового индекса хранит еще и сами данные в изначальном виде и можно отключить их хранение.
Popularity: 4%

Popularity: 4%