Парсинг сайтов
дистанционно
договорная
Спарсить: цены, объявления. Название заказа: Парсинг анкет сиделок с 6 сайтов (Новосибирск) с выгрузкой в CSV Описание задачи: Необходимо собрать структурированные данные по анкетам сиделок в Новосибирске с перечисленных ниже сайтов. Данные нужны для регрессионного анализа рынка. Список сайтов для парсинга: uslugi.yandex.ru — все анкеты по запросу "сиделка" в Новосибирске profi.ru — все анкеты в разделе "Сиделки" по Новосибирску 7hands.com — все анкеты сиделок в Новосибирске pomogatel.ru — все анкеты сиделок в Новосибирске avito.ru — все объявления в разделе "Няни/сиделки" по Новосибирску opeca-doma.ru — тарифы на услуги (приходящая/суточная/с проживанием) по Новосибирску Технические требования: Сбор всех доступных анкет/объявлений с каждого сайта (не ограничиваться первыми 20–50) Обязательный обход защиты Avito.ru (использовать headless-браузер/прокси/ротацию IP) Эмуляция нажатия кнопок "Показать ещё" / прокрутка страниц для загрузки всех данных Извлечение полного текста анкеты/описания для последующего анализа Формат выгрузки: Один общий CSV-файл (UTF-8, разделитель запятая) со следующими колонками: source_site — название сайта-источника source_type — aggregator или agency price_hour — цена за час (число, если указана) price_month — цена за месяц (число, если указана) age — возраст (число) experience_years — опыт работы в годах (0 — если нет опыта) phone_verified — 0/1 passport_verified — 0/1 email_verified — 0/1 self_employed — 0/1 district — район города (строка) days_since_last_visit — дней с последнего визита (число) has_medical_skills — 0/1 (проверка текста на слова: уколы, инъекции, массаж, реабилитация, медсестра) has_education_mention — 0/1 (проверка текста на: образование, сертификат, курсы, обучение) live_in — 0/1 (если в тексте есть "проживание" или готовность жить с подопечным) text_full — полный текст анкеты/объявления Особое указание по opeca-doma.ru: Это сайт агентства, а не агрегатор. Для него парсить не анкеты, а тарифы: занести в CSV 3 строки с ценами (приходящая, суточная, с проживанием) и указать source_type=agency. Срок выполнения: 48 часов с момента подтверждения заказа. Старт работ: понедельник, 22 июня 2026 г. Жёсткий дедлайн: среда, 24 июня 2026 г., 23:59 по МСК. Формат результата: Ссылка на файл (Google Drive / Яндекс.Диск) или вложение в сообщение.
2026-06-20
Откликнуться