Администраторы баз данных
дистанционно
договорная
Разработать базу данных с нуля. СУБД: по рекомендации специалиста. Нужен инженер с опытом работы с векторными БД и embedding-моделями для разработки модуля семантического поиска по большому справочнику. Задача Из 256 тысяч размеченных пар «текстовое описание ? код позиции» построить систему, которая для нового входящего описания возвращает топ-50 наиболее релевантных позиций из справочника на 5 тысяч записей. Это первый этап двухстадийного пайплайна (вторая стадия — LLM-ранжирование — реализуется отдельно). Состав работ • Подготовка и индексация двух наборов данных в векторной БД: справочник работ (5 тыс позиций) и исторические сопоставления (256 тыс пар) • Подбор и настройка embedding-модели для русскоязычных технических описаний • Реализация пайплайна препроцессинга текста (нормализация, обработка кириллица/латиница, технические термины) • Реализация поискового API с метриками similarity и фильтрацией дублей • Замер качества на отложенной выборке: top-1, top-3, top-5 accuracy, [Email скрыт] • Документация и Docker-окружение для развёртывания Требования к исполнителю • Опыт работы с Qdrant / Milvus / Weaviate или аналогами • Опыт с embedding-моделями (BGE, E5, multilingual sentence-transformers) • Python, FastAPI или аналог • Понимание метрик качества retrieval-систем • Опыт работы с русскоязычными техническими данными — плюс Что предоставляется • Готовые JSON-данные (256 тыс размеченных пар, 5 тыс позиций справочника) • Целевая архитектура и описание интеграции • Доступ к тестовой среде для замера метрик Формат работы Удалённо. Передача исходного кода, инструкции по развёртыванию. Бюджет и сроки Обсуждается. Ориентировочный объём — 3–4 недели. Просьба указать в отклике релевантный опыт и ориентировочную стоимость.
2026-05-20
Откликнуться