Разработка на Django — удалённая работа в Москве

Дата: 2024-04-28
Детали
Регион
Москва
Занятость
дистанционно
Стоимость
от 10000.00 руб.
Дата публикации
2024-04-28
Описание
Веб-разработка. Разработка с нуля. Приветствую, требуется разработать специфический движок на основе Django, основная задача которого будет парсинг (веб-скрайпинг) с целевого сайта (маркетплэйс) по запросу пользователя и выдача ему полученных результатов. Веб интерфейс должен быть интегрирован в telegram webapp. Основная механика. Пользователь через бот тг вводит требуемый поисковый запрос. Бот обращается движку и тот в свою обращается к целевому сайту для получения данных с карточки товара (название продукта, его url и прочие данные). После этого полученные данные отображаются пользователю в тг бота виде webapp. Пользователь может выбрать какое-то значение или продолжить поиск дальше. Когда пользователь завершает поиск, в бот возвращаются выбранные пользователем данные. Движок необходимо спроектировать таким образом, чтобы можно добавлять различные целевые сайты для сбора данных. Доступ пользователей к движку должен быть возможен только через тг бота. Нюансы проекта будем обсуждать дополнительно, но механика в целом изменятся не будет.
Похожие заказы
Разработка на Django
дистанционно
договорная
Веб-разработка. Разработка с нуля. Проект django.
Москва
Фрилансеры
2024-05-17
Подробнее
Разработка на Python
дистанционно
договорная
Веб-разработка. Тестирование, разработка с нуля, настройка, доработка существующего продукта. Ничего кодить не нужно. Нужны дополнительные руки. Задача: Собрать поисковую выдачу по 170 запросам, я все объясню. Что нужно иметь: Гугл браузер, Гугл таблицы, VScode (с установленным питоном и библиотекой beautifulsoup) Все что нужно будет делать: 1. Вбить запрос в инкогнито Гугл хром 2. Инспекнуть код страницы, скопировать html 3. Запустить питон скрипт 4. Скопировать полученный результат в гугл таблицу … И так 170 раз.
Москва
Фрилансеры
2024-05-16
Подробнее
Разработка на Python
дистанционно
договорная
Заполнение готового скрипта на пайтон для гугл-формы. Доработка существующего продукта. Нужно заполнить скрипт на питоне для существующей Гугл-формы, форма есть, скрипт есть, нужен исполнитель, срочно.
Москва
Фрилансеры
2024-05-16
Подробнее
Разработка на Python
дистанционно
от 500.00 руб.
Разработка приложений для ПК. Доработка существующего продукта. Программист-ассистент python. Пожелания и особенности: Программист-ассистент python.
Москва
Фрилансеры
2024-05-16
Подробнее
Разработка на Python
дистанционно
договорная
Веб-разработка. Доработка существующего продукта. Создание базы данных,. Создание личного кабинета сайта.
Москва
Фрилансеры
2024-05-16
Подробнее
Разработка на Python
дистанционно
от 500.00 руб.
Программирование. Написать небольшую часть программы. Добавить страницу( заглушка в views.py) со списком всех созданных пользователем приглашений.
Москва
Фрилансеры
2024-05-15
Подробнее
Разработка на Python
дистанционно
от 1000.00 руб.
решение задач. Разработка с нуля. Во всех заданиях данного раздела запрещено использовать циклы и list comprehensions. Под вектором и матрицей в данных заданиях понимается одномерный и двумерный numpy.array соответственно. In [ ]: import numpy as np 1. (0.5 балла) Реализуйте функцию, возвращающую максимальный элемент в векторе x среди элементов, перед которыми стоит нулевой. Для x = np.array([6, 2, 0, 3, 0, 0, 5, 7, 0]) ответом является 5. Если нулевых элементов нет, функция должна возвращать None. In [ ]: def max_element(arr): # Your code here 2. (0.5 балла) Реализуйте функцию, принимающую на вход матрицу и некоторое число и возвращающую ближайший к числу элемент матрицы. Например: для X = np.arange(0,10).reshape((2, 5)) и v = 3.6 ответом будет 4. In [ ]: def nearest_value(X, v): # Your code here 3. (0.5 балла) Реализуйте функцию scale(X), которая принимает на вход матрицу и масштабирует каждый ее столбец (вычитает выборочное среднее и делит на стандартное отклонение). Убедитесь, что в функции не будет происходить деления на ноль. Протестируйте на случайной матрице (для её генерации можно использовать, например, функцию numpy.random.randint). In [ ]: def scale(X): # Your code here 4. (0.5 балла) Реализуйте функцию, которая для заданной матрицы находит: определитель след наименьший и наибольший элементы норму Фробениуса собственные числа обратную матрицу Для тестирования сгенерируйте матрицу с элементами из нормального распределения N (10,1) In [ ]: def get_stats(X): # Your code here 5. (0.5 балла) Повторите 100 раз следующий эксперимент: сгенерируйте две матрицы размера 10x10 из стандартного нормального распределения, перемножьте их (как матрицы) и найдите максимальный элемент. Какое среднее значение по экспериментам у максимальных элементов? 95-процентная квантиль? In [ ]: for exp_num in range(100): # Your code here Pandas Ответьте на вопросы о данных по авиарейсам в США за январь-апрель 2008 года. Данные и их описание In [ ]: import pandas as pd %matplotlib inline 6. (0.3 балла) Какая из причин отмены рейса (CancellationCode) была самой частой? (расшифровки кодов можно найти в описании данных) In [ ]: # Your code here 7. (0.3 балла) Найдите среднее, минимальное и максимальное расстояние, пройденное самолетом. In [ ]: # Your code here 8. (0.3 балла) Не выглядит ли подозрительным минимальное пройденное расстояние? В какие дни и на каких рейсах оно было? Какое расстояние было пройдено этими же рейсами в другие дни? In [ ]: # Your code here 9. (0.3 балла) Из какого аэропорта было произведено больше всего вылетов? В каком городе он находится? In [ ]: # Your code here 10. (0.3 балла) Найдите для каждого аэропорта среднее время полета (AirTime) по всем вылетевшим из него рейсам. Какой аэропорт имеет наибольшее значение этого показателя? In [ ]: # Your code here 11. (1 балл) Найдите аэропорт, у которого наибольшая доля задержанных (DepDelay > 0) рейсов. Исключите при этом из рассмотрения аэропорты, из которых было отправлено меньше 1000 рейсов (используйте функцию filter после groupby). In [ ]: # Your code here Линейная регрессия В этой части мы разберемся с линейной регрессией, способами её обучения и измерением качества ее прогнозов. Будем рассматривать датасет из предыдущей части задания для предсказания времени задержки отправления рейса в минутах (DepDelay). Отметим, что под задержкой подразумевается не только опоздание рейса относительно планируемого времени вылета, но и отправление до планируемого времени. Подготовка данных 12. (1 балл) Считайте выборку из файла при помощи функции pd.read_csv и ответьте на следующие вопросы: Имеются ли в данных пропущенные значения? Сколько всего пропущенных элементов в таблице "объект-признак"? Сколько объектов имеют хотя бы один пропуск? Сколько признаков имеют хотя бы одно пропущенное значение? In [ ]: # Your code here Как вы понимаете, также не имеет смысла рассматривать при решении поставленной задачи объекты с пропущенным значением целевой переменной. В связи с этим ответьте на следующие вопросы и выполните соответствующие действия: Имеются ли пропущенные значения в целевой переменной? Проанализируйте объекты с пропущенными значениями целевой переменной. Чем вызвано это явление? Что их объединяет? Можно ли в связи с этим, на ваш взгляд, исключить какие-то признаки из рассмотрения? Обоснуйте свою точку зрения. Исключите из выборки объекты с пропущенным значением целевой переменной и со значением целевой переменной, равным 0, а также при необходимости исключите признаки в соответствии с вашим ответом на последний вопрос из списка и выделите целевую переменную в отдельный вектор, исключив её из матрицы "объект-признак". In [ ]: # Your code here 13. (0.5 балла) Обратите внимание, что признаки DepTime, CRSDepTime, ArrTime, CRSArrTime приведены в формате hhmm, в связи с чем будет не вполне корректно рассматривать их как вещественные. Преобразуйте каждый признак FeatureName из указанных в пару новых признаков FeatureName_Hour, FeatureName_Minute, разделив каждое из значений на часы и минуты. Не забудьте при этом исключить исходный признак из выборки. В случае, если значение признака отсутствует, значения двух новых признаков, его заменяющих, также должны отсутствовать. Например, признак DepTime необходимо заменить на пару признаков DepTime_Hour, DepTime_Minute. При этом, например, значение 155 исходного признака будет преобразовано в значения 1 и 55 признаков DepTime_Hour, DepTime_Minute соответственно. In [ ]: # Your code here 14. (1 балл) Некоторые из признаков, отличных от целевой переменной, могут оказывать чересчур значимое влияние на прогноз, поскольку по своему смыслу содержат большую долю информации о значении целевой переменной. Изучите описание датасета и исключите признаки, сильно коррелирующие с ответами. Ваш выбор признаков для исключения из выборки обоснуйте. Кроме того, исключите признаки TailNum и Year. In [ ]: # Your code here 1 5. (0.5 балла) Приведем данные к виду, пригодному для обучения линейных моделей. Для этого вещественные признаки надо отмасштабировать, а категориальные — привести к числовому виду. Также надо устранить пропуски в данных. В первую очередь поймем, зачем необходимо применять масштабирование. Следующие ячейки с кодом построят гистограммы для 3 вещественных признаков выборки. In [ ]: X['DepTime_Hour'].hist(bins=20) In [ ]: X['TaxiIn'].hist(bins=20) In [ ]: X['FlightNum'].hist(bins=20) Какую проблему вы наблюдаете на этих графиках? Как масштабирование поможет её исправить? Некоторые из признаков в нашем датасете являются категориальными. Типичным подходом к работе с ними является бинарное, или one-hot-кодирование. Реализуйте функцию transform_data, которая принимает на вход DataFrame с признаками и выполняет следующие шаги: Замена пропущенных значений на нули для вещественных признаков и на строки 'nan' для категориальных. Масштабирование вещественных признаков с помощью StandardScaler. One-hot-кодирование категориальных признаков с помощью DictVectorizer или функции pd.get_dummies. Метод должен возвращать преобразованный DataFrame, который должна состоять из масштабированных вещественных признаков и закодированных категориальных (исходные признаки должны быть исключены из выборки). In [ ]: def transform_data(data): # Your code here Примените функцию transform_data к данным. Сколько признаков получилось после преобразования? In [ ]: # Your code here 16. (1 балл) Разбейте выборку и вектор целевой переменной на обучение и контроль в отношении 70/30 (для этого можно использовать, например, функцию train_test_split). In [ ]: # Your code here Scikit-learn Теперь, когда мы привели данные к пригодному виду, попробуем решить задачу при помощи метода наименьших квадратов. Напомним, что данный метод заключается в оптимизации функционала MSE Заметим, что решение данной задачи уже реализовано в модуле sklearn в виде класса LinearRegression. 17. (1 балл) Обучите линейную регрессию на 1000 объектах из обучающей выборки и выведите значения MSE и R2 на этой подвыборке и контрольной выборке (итого 4 различных числа). Проинтерпретируйте полученный результат — насколько качественные прогнозы строит полученная модель? Какие проблемы наблюдаются в модели? Подсказка: изучите значения полученных коэффициентов w, сохраненных в атрибуте coef_ объекта LinearRegression. In [ ]: # Your code here Для решения описанных вами в предыдущем пункте проблем используем L1- или L2-регуляризацию, тем самым получив Lasso и Ridge регрессии соответственно и изменив оптимизационную задачу одним из следующих образов: где α — коэффициент регуляризации. Один из способов его подбора заключается в переборе некоторого количества значений и оценке качества на кросс-валидации для каждого из них, после чего выбирается значение, для которого было получено наилучшее качество. 18. (1 доп. балл) Обучите линейные регрессии с L1- и L2-регуляризатором, подобрав лучшее значение параметра регуляризации из списка alpha_grid при помощи кросс-валидации c 5 фолдами на тех же 1000 объектах, что и в п.17. Выведите значения MSE и R2 на обучающей и контрольной выборках. Удалось ли решить указанные вами ранее проблемы? Для выполнения данного задания вам могут понадобиться реализованные в библиотеке объекты LassoCV, RidgeCV и KFold. In [ ]: # Your code here Срок 20.05, оплата после проверки на работоспособность и правильность кода, ссылка на задачи в гитхабе будет отправлена.
Москва
Фрилансеры
2024-05-14
Подробнее