Спарсить: цены, товары, объявления, контакты. Нужно спарсить товары сайта и вывести в эксель формате. Есть АПИ, документация, сайт для отладки. За подробностями пишите в лс.
Спарсить: судебные дела, нормативные акты. Техническое задание: Система сбора и обновления правовых данных Версия 1.2 | Дата: 06.07.2025 1. Цель системы Создание централизованной базы НПА и судебных решений РФ с: Автообновлением данных ежедневно Текстами в копируемом формате (аналог КонсультантПлюс) Интеграцией в экосистему для юристов 2. Источники данных Тип данных Источник Формат данных Частота обновления Федеральные НПА pravo.gov.ru (основной) API (метаданные) + PDF Каждые 2 часа Региональные НПА zakon.scli.ru (Федрегистр) XML/HTML Ежедневно Судебные решения kad.arbitr.ru (КАС Арбитраж) HTML + приложения PDF Реальное время 3. Требования к обработке текстов 3.1. Конвертация в копируемый формат: PDF → чистый текст с сохранением структуры (статьи, пункты) Распознавание сканов: Abbyy FineReader Engine (точность ≥99%) Автоматическое выделение: python # Пример обработки структуры def extract_structure(text): articles = re.split(r"\nСтатья \d+\.", text) # Разделение по статьям return {f"Статья {i}": content for i, content in enumerate(articles[1:], 1)} 3.2. Валидация данных: Сравнение хешей SHA-256 при обновлении Контрольные точки сверки с официальными публикациями 4. Система автообновления Архитектура: Diagram Code Технологии: Планировщик: Apache Airflow (DAG для каждого источника) Очереди задач: Celery + Redis Мониторинг: Prometheus + Grafana 5. Парсинг судебных решений (КАС Арбитраж) Особенности реализации: Обход защиты: Ротация User-Agent + прокси (BrightData) Задержки между запросами: 8-12 сек Извлечение данных: python # Пример парсинга kad.arbitr.ru def parse_kad(case_id): url = f"https://kad.arbitr.ru/Document/{case_id}" soup = BeautifulSoup(requests.get(url).content) return { "case_number": soup.select(".case-info b")[0].text, "judges": [el.text for el in soup.select(".judges-list li")] } Хранение приложений: Отдельный S3-бакет для PDF-приложений 6. Инфраструктура Серверная часть: Компонент Технология Спецификации База метаданных PostgreSQL 14 4 vCPU, 16 GB RAM Полнотекст. поиск Elasticsearch 8.x 8 vCPU, 32 GB RAM Хранилище файлов MinIO (S3-совместимый) 5 TB SSD Обработка PDF AWS Lambda 2048 MB памяти Оценка нагрузки: 300K документов ≈ 15 млн запросов/мес → Cloudflare WAF для защиты 7. Юридические требования Отказ ответственности: "Система использует данные официальных порталов. За актуальностью обращайтесь к первоисточникам: pravo.gov.ru, kad.arbitr.ru" Соблюдение: robots.txt источников Статья 1280.1 ГК РФ (свободное использование) Лицензии: Коммерческая лицензия Abbyy FineReader API-ключ pravo.gov.ru (бесплатно) 8. Этапы реализации Этап Срок Результат Прототип 2 нед. Сбор 10K фед. НПА + конвертация PDF MVP 1 мес. Автообновление + поиск по метаданным Парсинг КАС 3 нед. Интеграция kad.arbitr.ru Релиз 6 нед. Веб-интерфейс для юристов 9. Контроль качества Метрики: Точность распознавания: ≥ 98% (выборка 1000 стр./неделю) Задержка обновления: < 24 часов Доступность API: 99.5% (SLA) Инструменты: Юридическая верификация: ручная проверка 0.1% документов Автотесты парсеров: pytest + моки сайтов 10. Риски и митигация Риск Решение Изменение структуры сайтов Резервные парсеры + алерт в Telegram Блокировка IP Ротация прокси (Luminati) Потеря данных Daily S3-снепшоты + WAL-G бэкапы.
Спарсить: отзывы. Нужно на пайтон создать максимально простой парсер и объяснить мне, как он работает. Парсер должен собирать только тексты отзывов об одном продукте с одного конкретного косметического сайта. В день можно собирать не более 300 отзывов. На выходе код должен предоставлять csv-файл, в котором будет единственный столбец с текстами отзывов.
Спарсить: контакты. Собрать базу e-mail адресов обойных магазинов России. Нужно около 500-1000 контактов на первое время. Нужен парсинг действующих и не битых e-mail адресов.
Спарсить: данные. Парсинг данных для составления поставок с ежедневным обновлением. - Список товара - Размеры - Артикул - Остаток по каждому размеру - На сколько дней хватит - Какое кол-во нужно заказать на неделю (с учетом динамики продаж).
Спарсить: контакты. Пожелания и особенности: Необходимо спарсить номера турбаз, загородных баз и глэмпингов в ЦФО, ПФО и ЮФО и предоставить результат в виде таблицы Excel. Номера нужны будут для прозвона и предложения строительных услуг. В таблице должна быть ссылка на сайт турбазы.
Спарсить: контакты. Задача состоит в том что нужно собрать ФИО и номера телефонов всех аттестованных специалистов (только физических лиц) с сайта https://www.nopriz.ru/ Собрать нужно по всей России, кроме новых регионов.
Спарсить: товары, цены, объявления, Характеристики товара. Необходимо спарсить данные о стоимости, описании, всех характеристик красок с сайта ВсеИнструментыРу и Озон.
Спарсить: товары, цены, контакты, Доп. реквизиты. Необходимо выполнить качественный парсинг одного из разделов сайта https://www.directindustry.com.ru/ на русском языке. На скрине указано с какого именно раздела мы начинаем. НА ВЫХОДЕ: структурированный (согласно указанному разделу сайта исходника) XML для заливки на сайт учитывающие все нижеперечисленные уточнения по пунктам. В приложении пример целого сайта - сейчас нужно спарсить 1 раздел. но по нему есть много важных уточнений... Уточнения: 1. Парсим на русском языке. 1.1 Собираем DISCRIPTION на русском языке 2. Собираем ID категории (для всех разделов/подразделов) из URL (см. скрин) 3. Собираем ID каждого товара из URL (см. cоотв. скрин) 3.1. ID товара и offer ID - берем из свернутого вида карточки товара и делаем уникальными. 3.2 Если ID товара с пробелом например - пробел лучше убирать и обьединять в один код ( Это касается только пробела! Другие символы напр. Тире - допускаются.) 3.3 !Только если ID товара - нету в источнике - то лучше пропустить данный товар и не собирать его! 3.4. Собираем и добавляем в исх. XML поле Articul (из свернутого вида карточки) (см. скрин с соотв. названием) 4.1 тут важно- там где в свернутом виде его нет (артикула) - добавлять на его место id товара из URL (см. скрин, нужен и Код товара(из URL) и Артикул (из карточки) 5. Собираем точные доп. реквизиты: габариты, веса и все др. имеющиеся 6. Собираем из карточек товаров ВСЕ имеющиеся картинки в хорошем качестве (как они есть в исходнике) см. соотв. скрин о месте картинок в исх. XML и какие именно картинки забираем в XML - все основные (крупные) ИТОГО: 7. ОЧЕНЬ ВАЖНО брать и сохранять по возможности: 7.1 Уникальный ID раздела 7.2 Уникальный ID подраздела, чтобы далее иметь возможность обновлять каталог на сайте свежими версиями XML 7.3 Уникальный ID товара.
Спарсить: контакты. Необходимо распарсить сайты школ в г.Москве и Московской области Списки сайтов школ по округам расположены на отдельных сайтах-справочниках. Они есть в интернете в свободном доступе. Необходимо, чтобы по каждой школе в табличной форме был: Номер школы ФИО директора Почта директора Телефон директора Почта школы ФИО, почта, номер телефона заместителей директоров Структура сайтов московских школ в целом весьма однотипна. Какие-то детали можно обсудить уже подробнее в переписке. Спасибо!.
Спарсить: Фото картинок. Спарить только фото. Товаров около 3500 . Необходимо сложить фото товаров отдельно в каждую папку. Название папки равно артикул. Например у товара Артикул = 123456 в ней должны быть фото 123456_1, 123456_2,123456_3,123456_2, . Файл с ссылками прилагаю. Ссылки в первом столбце.
Спарсить: перечень данных компаний. Нужно собрать базу компаний, которые занимаются железнодорожными перевозками Какие данные: Наименование Город Адрес Телефон 1 Телефон 2 (если есть) Телефон 3 (если есть) Email (пример: [Email скрыт]) Сайт (адрес https://example.ru).
Спарсить: контакты. Пожелания и особенности: Необходимо парсить контакты номеров в определенной локации после оставления заявки. Сайт Яндекс Гараж. https://garage.yandex.ru.
Спарсить: цены, новости. Пожелания и особенности: Нужно собирать цены не со статических страниц, а с динамических калькуляторов + встройка кода в телеграм бот.
Спарсить: Название организации — Город — Адрес организации — Сайт организации. Необходимо сделать парсер на php/python для парсинга сайта prodoctorov.ru Задачи парсинга: формирование БД (Название клиники — Город — Адрес Клиники — Сайт клиники) Учитывать: пагинация идет с помощью PAGE, необходимая часть контента доступна только при переходе внутрь карточки Итог — excel файл со строками.
Спарсить: По ячейкам в таблице. Задача: Сделать парсинг сайта и выгрузить данные в таблицу по примеру, предоставленному в файле импорта на сайт. Цель: Необходимо автоматически собрать (спарсить) информацию с сайта и структурировать её в имеющуюся таблицу по примеру 1 страницы, как в файле импорта, который мы используем для загрузки на сайт. Входные материалы предоставим + нам нужно универсальный прототип парсера с возможностью повторного запуска на примере этого.
Спарсить: цены, товары, объявления, отзывы. Три японских аукциона. Наобходим парсер (один или несколько), который будет забирать информацию и размещать ко мне на сайт. Форма выведения информации - обсуждаемо. Частота обновлений аукционов - каждый день. Плюс необходимо оптимизировать сам сайт под поисковые системы, под современные тенденции и пр, им очень давно толком не занимались.
Спарсить: контакты. Требуется спарсить Яндекс карты .Важно получить отзывы, фото (хотя бы ссылки), цены и услуги, условия размещения и прочее описание (также часто указывают наличие кондиционеров, тв и прочего).
Спарсить: товары, цены. Требуется создать программу парсинга нескольких сайтов на регулярной основе, с целью получения данных о товарах, сроках поставки и цены.
Спарсить: товары, цены. Пожелания и особенности: Для работы отдела B2B, нужен человек ( аналитик/программист), который создаст парсер сайта ЛеманаПро. Какой конечный продукт нам нужен: - нужен парсер, который будет парсить сайт ЛеманаПро - нам нужно, на ежедневной основе получать информацию по остаткам нашей продукции по магазинам ЛеманаПро - данные нужно получить в гуглтаблице.
Спарсить: цены. Пожелания и особенности: Здравствуйте, подскажите, пожалуйста, есть ли техническая возможность для парсинга цен на автодетали по маркам авто на конкретных сайтах? И сколько бы это стоило? В данном случае речь идет о 25 деталях по ~280 маркам авто. Сайты: Exist, Major, ZZAP, Emex.
Спарсить: Просмотры. Необходимо настроить систему. Цель: сбор данных о просмотрах роликов в 4 социальных сетях проекта. Нужно, чтобы данные о просмотрах автоматически подгружались, например, в Гугл-таблицу.
Спарсить: Парсинг сайта с событиями. Сайт: https://hobbygames.ru/games-lib Необходимо настроить парсер, который 1 раз в день, ежедневно парсить данные о событиях Формат таблицы: [ Дата, время Адрес Тип Название Цена Адрес страницы на которой можно записаться на мероприятие ] Выгрузка событий в .JSON.
Почему стоит искать работу для фриласнеров по профилю парсинг сайтов в России у нас?
🔸 Более 1 предложений о работе за сегодня в тематике парсинг сайтов
🔸 Работа и подработка на бирже фриланса от прямых заказчиков, которым нужна помощь специалистов по профилю парсинг сайтов уже сегодня!
🔸 Свежих заказов на парсинг сайтов в России для фрилансеров на июнь 2026 года — 58 шт.
Как найти удалённую работу для фриланс-специалистов по профилю парсинг сайтов в России?
Вы специалист по парсинг сайтов и ищете проекты и заказы на удалёнке в России? Нам всегда есть что вам предложить. Ежедневно мы публикуем новые проекты и заказы по вашей специальности. Найдите интересную работу уже сегодня
Сколько проектов для IT-специалистов по профилю парсинг сайтов в России?
На июнь 2026 года опубликовано 58 предложений удалённой работы от прямых заказчиков для исполнителей по специализации парсинг сайтов
Сколько можно заработать выполняя проекты по парсинг сайтов?
Специалисты по профилю парсинг сайтов зарабатывают от 0.00 рублей с заказа. Хотите больше? Выполняйте как можно больше заказов и зарабатывайте сколько пожелаете