Data Science. Настройка. ТЗ: Создание персональной RAG-системы для анализа большого архива текстов Кратко о проекте: Нужно создать персональную систему на основе RAG (Retrieval-Augmented Generation) для работы с моим архивом исследовательских текстов. Система должна позволять задавать вопросы на естественном языке и получать точные ответы, основанные исключительно на содержимом моих документов, без необходимости их ручной загрузки для каждого запроса. 1. Детальное описание проблемы (бэкграунд) У меня есть собрание авторских текстов (статьи) общим объёмом от 10 000 до 100 000+ слов. В настоящее время я пытаюсь работать с ними через чат DeepSeek, что приводит к следующим проблемам: • Невозможность работы со всем архивом: Лимит контекста чата не позволяет загружать все тексты одновременно. • Ненадёжность ссылок: Публикация текстов в откытых ресурсах и попытка загрузки по ссылкам приводит к искажениям и неполной передаче текста. • Непрактичность ручной загрузки: Копировать большие тексты вручную для каждого нового диалога — нереалистично. Цель: Преодолеть эти ограничения, перенести работу в специализированную систему, где весь архив будет проиндексирован и доступен для интеллектуального поиска. 2. Что нужно сделать (Конкретные задачи) Исполнителю необходимо разработать и развернуть рабочее решение, которое включает: 1. Загрузку и индексацию архива: o Приём предоставленных текстовых файлов (форматы: .txt, .pdf, .docx). o Настройку процесса разбивки текстов на оптимальные фрагменты (chunking) с учётом смысловой целостности. o Преобразование текстов в векторные эмбеддинги и сохранение в векторную базу данных. 2. Разработку ядра RAG-системы: o Создание модуля, который по текстовому запросу пользователя находит в векторной БД наиболее релевантные фрагменты из всего архива. o Интеграцию языковой модели (DeepSeek через официальный API) для генерации ответов на основе найденных фрагментов. o Настройка промта (инструкции) для LLM, чтобы ответы были точными, ссылались на исходные тексты и избегали «галлюцинаций». Т.З. писал ИИ. Могу в чем то ошибаться, но суть вопроса, надеюсь раскрыл.