Токенизатор для Elasticsearch для русского языка

Разделы
- Console (6)
- KDE (5)
- X11 (6)
- Базы данных (10)
- Без рубрики (3)
- Вебсервер (9)
- Инсталляция (11)
- Клиенты (3)
- Локализация (3)
- Мультимедия (13)
- Поисковые машины (4)
- Программирование (9)
  - Python (2)
- Разное (11)
- Сеть (9)
- Системное (21)
- Уроки (5)
- Файловая система (7)
- Юмор (3)
Популярное

Календарь

Архив
Партнеры

Апрель 2024
Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Дек
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Токенизатор для Elasticsearch для русского языка

By admin ~ Апрель 7th, 2017. Filed under: Поисковые машины.

Нужно было написать custom tokenizer, который бы делал следующие:

оставляет только русские и английские буквы
не забудет про букву ё
оставит так же тире(-) и знак подчеркивания (_)
цифры

Вот что получилось в итоге:

"tokenizer": {
    "test_tokenizer": {
        "type": "pattern",
        "pattern": "[^0-9\_\-a-zA-Zа-яА-ЯёЁ]",
        "flags" : "CASE_INSENSITIVE"
    }
}

Использовать в секции “analyzer”:

как “tokenizer”: “test_tokenizer”

Popularity: 27%

Теги: elasticsearch

Похожие статьи:

Оставьте комментарий:

Подписчики:
Поиск:
Теги:
mysql nginx python elasticsearch django ubuntu php звук ssh kde4 skype alsa vim postgresql cdrom прокси fonts icq sql mp3 locale deb bash ruby docker XOrg видео subversion PPPoE wordpress терминал ping iso ldd backports qt4 voip version ntfs root vfat sound lang install update
Профиль
- Войти
Книги
Счетчики

Debian администратор

Портал администраторов Debian/Ubuntu Linux.

Разделы

Популярное

Календарь

Архив

Партнеры

Токенизатор для Elasticsearch для русского языка

Оставьте комментарий:

Подписчики:

Поиск:

Теги:

Профиль

Книги

Счетчики