Разработка гибридного поиска по текстовым документам
Цена: от 80 000 ₽
Что вы получите
Готовый поисковый модуль для вашего сайта, который ищет документы и по точным словам (как в Яндексе/Google), и по смыслу (похожие документы). Результаты смешиваются в одной выдаче.
Возможности
- Полнотекстовый поиск: поиск по точным фразам, словам с учетом морфологии (падежи/род).
- Векторный (семантический) поиск: поиск похожих по смыслу документов, даже если ключевые слова не совпадают.
- Гибридная выдача: алгоритм объединяет оба подхода (например, 50% на 50% или с весами).
- Фильтрация: по метаданным документа (дата, автор, тег), если они есть.
- API-ручка: один HTTP-запрос — готовый список результатов.
Подходит, если вам нужно
- Пользователь находит документ по описанию проблемы, даже используя другие термины.
- Точные цитаты и номера документов также отрабатывают правильно.
- У вас от 100 до 500 000 текстовых документов (PDF, DOCX, TXT, HTML) или карточек товаров и тп.
Что не входит в стоимость
- Верстка интерфейса поиска (только бэкенд/API).
- Первичное распознавание сканов (OCR), если документы — картинки.
- Обучение нейросети «с нуля» (используем готовые embedding-модели).
- Хостинг и база данных (предоставляете свои или оплачивается отдельно).
Технологии
- Бэкенд (Python)
- Векторная БД
- Полнотекстовый движок
- Embedding-модель (multilingual-e5, rubert-tiny2)