training_projects

Форк
0

..
/
forecasting_taxi_orders 
7 месяцев назад
README.md

Прогнозирование заказов такси

Компания «Чётенькое такси» хочет привлекать больше водителей в период пиковой нагрузки.


КОНТЕКСТ ИССЛЕДОВАНИЯ: исторические данные о заказах такси в аэропортах.


ЦЕЛЬ ИССЛЕДОВАНИЯ: построить модель для прогноза количества заказов такси на следующий час.


КРИТЕРИИ УСПЕХА И ПРИМЕЧАНИЯ:

  • Значение метрики RMSE на тестовой выборке должно быть не больше 48

Описание данных для первого исследования:

  • Данные: /datasets/taxi.csv

Количество заказов находится в столбце num_orders


Вывод

В ходе работы над исследованием была обучена, выбрана и протестирована лучшая модель машинного обучения, прогнозирующая количество заказов такси в следующий час. Финальное качество модели на тестовой выборке: RMSE == 35.43941408769851

Исследование было разделено на несколько этапов:

1. Загрузка и подготовка данных

  • В данных обнаружили информацию о 26496 заках такси в аэропортах
  • Данные представлены за промежуток с 1 марта 2018 года (0:00) по 31 августа 2018 года (23:50)
  • Пропущенных значений не было обнаружено
  • С типами данных все оказалось в порядке
  • Сразу ресемплировали данные по часам по задаче заказчика

2. Общий анализ данных

  • Построили несколько графиков для визуализации данных
  • Обнаружили тренд на повышение количества заказов к августу. Вероятно, летний сезон более активный с точки зрения авиаперевозок среди потребителей, в связи с чем заказы в аэропорты учащаются.
  • Минимальное количество заказов ~ в 06:00 (сезонно)
  • Максимальное количество заказов ~ в 00:00 (сезонно)
  • В течение дня количество заказов примерно среднее, небольшое повышение к вечеру в 16-17 часов.

3. Подбор гиперпараметров и обучение моделей

  • Разбили данные на тренировочную и тестовую выборку (9:1)
  • Перебрали 3 модели: LinearRegression, RandomForestRegressor и CatBoostRegressor.
  • Все модели показали близкий результат метрики RMSE на кросс-валидации, однако в качестве лучшей была признана базовая модель LinearRegression

5. Тестирование лучшей модели

  • RMSE на тестовой метрики составило 35.43941408769851, что соответствует критерию успеха от заказчика.
  • Визуализировали правильные ответы и предсказанные лучшей моделью ответы.

Использование cookies

Мы используем файлы cookie в соответствии с Политикой конфиденциальности и Политикой использования cookies.

Нажимая кнопку «Принимаю», Вы даете АО «СберТех» согласие на обработку Ваших персональных данных в целях совершенствования нашего веб-сайта и Сервиса GitVerse, а также повышения удобства их использования.

Запретить использование cookies Вы можете самостоятельно в настройках Вашего браузера.