Хранилище: персональное. Объём: 256. Операционная система: Windows. Пожелания и особенности: Требуется развернуть инфраструктуру обработки данных в Yandex Cloud: создать и настроить сеть, сервисный аккаунт, Object Storage и кластер Data Proc с доступом через прокси-машину, обеспечить подключение по SSH и возможность работы с HDFS и объектным хранилищем, затем получить исходные датасеты через CLI, выполнить их загрузку и предобработку на мастер-узле с использованием Bash и Hadoop MapReduce, сформировать результирующие файлы с вычислениями (включая агрегаты по пользователям и категориям), выгрузить эти результаты в Object Storage с публичным доступом, а также обеспечить воспроизводимость процесса через скрипты и корректное завершение работы инфраструктуры с последующей остановкой или удалением кластера. Необходимо получить датасет Avito через kaggle CLI, загрузить файл VisitsStream.tsv на мастер-узел кластера и средствами Bash обработать первые 1 000 000 строк, посчитав топ-10 пользователей по числу посещений с указанием количества визитов для каждого пользователя; все этапы — скачивание, преобразование и формирование результата — выполняются только Bash-командами, после чего итоговый файл должен быть выгружен в объектное хранилище с публичным доступом и предоставлена ссылка на него. Дополнительно требуется обработать файл AdsInfo.tsv: с использованием классического Hadoop MapReduce вычислить суммарную стоимость объявлений (Price) для каждой категории (CategoryID), отсортировать результат по возрастанию идентификаторов категорий, сохранить его в итоговый файл и также разместить в объектном хранилище с публичным доступом.