Data Science. Разработка с нуля. Исследовательский вопрос Как различается отношение пользователей к различным регионам России в туристических обсуждениях в социальных сетях за май-сентябрь 2025 года? Гипотезы Гипотеза 1: Регионы, где пользователи чаще отмечают положительные аспекты инфраструктуры (качество отелей, дорог, сервиса), получают больше позитивных отзывов в целом. Гипотеза 2: Регионы с уникальными природными достопримечательностями получают значительное количество положительных отзывов, даже если в комментариях присутствуют негативные упоминания инфраструктуры. Гипотеза 3: Регионы, в обсуждениях которых преобладают негативные упоминания как природных, так и инфраструктурных аспектов, получают преимущественно негативные или нейтральные общие оценки. Описание ожидаемого результата Проанализировав комментарии пользователей в социальных сетях: Составить карту тональности регионов Определить туристические тренды (самые популярные регионы) План действий Поиск в различных социальных сетях сообществ, посвященных туристической тематике + проверка наличия в них каких-либо постов за май-сентябрь 2025 года Сбор всех сообщений (посты + комментарии) из выбранных источников Предобработка текстовых данных будет включать: очистка от повторяющихся символов, устранение эмодзи, ссылок и т.д. приведение всех символов к нижнему регистру токенизация удаление стоп-слов лемматизация удаление пунктуации Нужно будет сделать фильтрацию по именованным сущностям (NER -> Location) Анализ тональности с использованием предобученных моделей для русского языка, так как они обеспечивают более высокую точность на неформальных русскоязычных текстах, содержащих сленг, иронию Тематическое моделирование (Заметка: ещё нужно будет подумать) Анализ результатов и интерпретация Визуализация полученных результатов на каждом этапе Формирование выводов.