Разработка гибридного поиска по текстовым документам

Цена: от 80 000 ₽

Что вы получите

Готовый поисковый модуль для вашего сайта, который ищет документы и по точным словам (как в Яндексе/Google), и по смыслу (похожие документы). Результаты смешиваются в одной выдаче.

Возможности

  • Полнотекстовый поиск: поиск по точным фразам, словам с учетом морфологии (падежи/род).
  • Векторный (семантический) поиск: поиск похожих по смыслу документов, даже если ключевые слова не совпадают.
  • Гибридная выдача: алгоритм объединяет оба подхода (например, 50% на 50% или с весами).
  • Фильтрация: по метаданным документа (дата, автор, тег), если они есть.
  • API-ручка: один HTTP-запрос — готовый список результатов.

Подходит, если вам нужно

  • Пользователь находит документ по описанию проблемы, даже используя другие термины.
  • Точные цитаты и номера документов также отрабатывают правильно.
  • У вас от 100 до 500 000 текстовых документов (PDF, DOCX, TXT, HTML) или карточек товаров и тп.

Что не входит в стоимость

  • Верстка интерфейса поиска (только бэкенд/API).
  • Первичное распознавание сканов (OCR), если документы — картинки.
  • Обучение нейросети «с нуля» (используем готовые embedding-модели).
  • Хостинг и база данных (предоставляете свои или оплачивается отдельно).

Технологии

  • Бэкенд (Python)
  • Векторная БД
  • Полнотекстовый движок
  • Embedding-модель (multilingual-e5, rubert-tiny2)

← Вернуться к услугам

© 2026 tashirka.ru