Data Science. Разработка с нуля, тестирование, настройка. Задача: необходимо реализовать систему для распознавания многостраничных PDF с архивными отсканированными документами (метрические книги, дореволюционные записи и т.п.). Требования: Пакетная обработка PDF → OCR → текстовый результат. Использование Yandex Vision API (или альтернативы). Текст дореволюционный, почерк и шрифт часто плохо читаем. Результаты должны быть индексируемыми: например, поиск по фамилиям с указанием страниц. Возможность повторного запуска для новых файлов. Желательно — интеграция через Telegram-бот: отправка PDF → возврат таблицы/текста и списка страниц с совпадениями. Результат: Скрипт/утилита (Python предпочтительно). Инструкция по запуску и использованию. Возможность локального хранения результатов.