Разработка на Python — удалённая работа в Москве

Дата: 2026-05-15

Детали

Регион

Москва

Занятость

дистанционно

Стоимость

договорная

Дата публикации

2026-05-15

Описание

Data Science. Настройка, доработка существующего продукта. Контекст задачи У нас есть поток отсканированных документов (TIF/JPG), которые нужно перевести в DOCX с правильным форматированием. Процесс выглядит так: Специалист открывает скан в FineReader, вручную убирает лишнее — печати, подписи, колонтитулы, номера страниц Полученный черновой DOCX прогоняется через внутреннюю программу форматирования — приводит шрифт, отступы, ориентацию к стандарту, добавляет служебный блок в начало документа На выходе — финальный DOCX, который на 98–99% совпадает с исходным сканом по тексту Проблема: при таком процессе могут вкрасться опечатки — FineReader иногда неверно распознаёт символы (буква О, вместо 0, точка, вместо запятой и тд). Нужен инструмент автоматической проверки: сравнить финальный DOCX с исходным сканом и показать все расхождения. Что уже сделано Написана Python-система, которая: Прогоняет скан через Yandex Vision OCR (или Google Documents) и получает текст с координатами каждого слова на странице Парсит DOCX и извлекает слова с точными позициями внутри документа (вплоть до конкретного Run и символьного смещения) Сравнивает OCR-текст с DOCX и находит расхождения: замены, вставки, удаления Показывает результат в веб-интерфейсе с подсветкой на нужном участке. Позволяет оператору принять или отклонить каждое расхождение и внести правки в DOCX В чём проблема с алгоритмом сравнения и что нужно решить: Документы почти идентичны, но алгоритм периодически «сбивается» и сравнивает не те участки: 1. Тело документа. Сравнение идёт по абзацам: для каждого абзаца DOCX ищется соответствующее место в OCR-тексте через уникальные совпадающие фразы («якоря»). В типовых документах много одинаковых стандартных фраз - якорей не хватает - алгоритм начинает сравнивать абзацы не с теми участками OCR - десятки ложных расхождений там, где текст на самом деле совпадает. 2. Таблицы. Документы содержат большие таблицы с 10–30 строками. Алгоритм сначала находит нужную таблицу на скане, затем сравнивает ячейки строка за строкой. Проблема: когда в документе несколько таблиц с одинаковым числом столбцов и похожими заголовками, алгоритм может сопоставить не ту таблицу - все ячейки сравниваются неправильно. 3. Слитные токены. DOCX хранит «уч. № 267» как три отдельных слова, а OCR объединяет в одно «уч.№267». Алгоритм видит расхождение там, где его нет. Частично решено, но не все случаи покрыты. Эта проблема не критична, но решить бы тоже хотелось.

Откликнуться

Похожие заказы

Data scientist

дистанционно

договорная

Доработка существующего продукта. Пожелания и особенности: Весь анализ происходит в приложении Gretl. У меня сделаны почти все задания, кроме последних двух, всего их 10, 3 из которых у меня приняли и они правильные, меня интересует помощь с последующими, так как нужно будет вносить изменения, но сил уже нет, ну и получается сделать нужно последние два задания. ( или сразу проверить и исправить задания) На фотографиях для примера несколько фото заданий, но больше фотографий нельзя прикоепить.

Москва Фрилансеры

2026-05-18 Откликнуться

IT-аутсорсинг

дистанционно

договорная

Разработка ПО. Data Science. Разработка с нуля. Пожелания и особенности: Ко мне на почту ежедневно приходят прайс листы поставщиков с информацией ( бренд;артикул;наименование;цена;остаток). Нужно написать бота, который будет анализировать изменения остатков (продажи) и цен( по какой цене поставщик продал) для составления статистики продаж по каждому артикулу, за определеный период. Прайс листов будет до 20, в каждом до 250 тыс артикулов, в среднем это 10-30 тыс артикулов.

Москва Фрилансеры

2026-05-18 Откликнуться

Программисты

дистанционно

договорная

Data Science. Разработка с нуля. Пожелания и особенности: Разработка программного обеспечения для автоматизированного расчёта интегрального индекса эффективности использования иностранной рабочей силы (Iэирс) Методика есть, есть расчеты в ексель.

Москва Фрилансеры

2026-05-18 Откликнуться

Data scientist

дистанционно

договорная

Разработка с нуля. Пожелания и особенности: Требуется консультация и создание кастомной системы аналитики для бизнеса для анализа внутренних данных: AI+ML. Важен опыт и реальные кейсы!.

Санкт-Петербург Фрилансеры

2026-05-18 Откликнуться

Программисты

дистанционно

договорная

Data Science. Разработка с нуля. Пожелания и особенности: Нужно работать с распознанием объектов на пдф. Подробнее расскажу после того, как обсудим все рабочие детали.

Москва Фрилансеры

2026-05-18 Откликнуться

Data scientist

дистанционно

договорная

Разработка с нуля, тестирование, настройка, доработка существующего продукта.

Краснодар Фрилансеры

2026-05-18 Откликнуться

Data scientist

дистанционно

договорная

сделать задание. Сделать задание по указанным параметрам в файле.

Москва Фрилансеры

2026-05-18 Откликнуться