training_projects
Прогнозирование заказов такси
Компания «Чётенькое такси» хочет привлекать больше водителей в период пиковой нагрузки.
КОНТЕКСТ ИССЛЕДОВАНИЯ: исторические данные о заказах такси в аэропортах.
ЦЕЛЬ ИССЛЕДОВАНИЯ: построить модель для прогноза количества заказов такси на следующий час.
КРИТЕРИИ УСПЕХА И ПРИМЕЧАНИЯ:
- Значение метрики RMSE на тестовой выборке должно быть не больше 48
Описание данных для первого исследования:
- Данные:
/datasets/taxi.csv
Количество заказов находится в столбце num_orders
Вывод
В ходе работы над исследованием была обучена, выбрана и протестирована лучшая модель машинного обучения, прогнозирующая количество заказов такси в следующий час. Финальное качество модели на тестовой выборке: RMSE == 35.43941408769851
Исследование было разделено на несколько этапов:
1. Загрузка и подготовка данных
- В данных обнаружили информацию о 26496 заках такси в аэропортах
- Данные представлены за промежуток с 1 марта 2018 года (0:00) по 31 августа 2018 года (23:50)
- Пропущенных значений не было обнаружено
- С типами данных все оказалось в порядке
- Сразу ресемплировали данные по часам по задаче заказчика
2. Общий анализ данных
- Построили несколько графиков для визуализации данных
- Обнаружили тренд на повышение количества заказов к августу. Вероятно, летний сезон более активный с точки зрения авиаперевозок среди потребителей, в связи с чем заказы в аэропорты учащаются.
- Минимальное количество заказов ~ в 06:00 (сезонно)
- Максимальное количество заказов ~ в 00:00 (сезонно)
- В течение дня количество заказов примерно среднее, небольшое повышение к вечеру в 16-17 часов.
3. Подбор гиперпараметров и обучение моделей
- Разбили данные на тренировочную и тестовую выборку (9:1)
- Перебрали 3 модели:
LinearRegression
,RandomForestRegressor
иCatBoostRegressor
. - Все модели показали близкий результат метрики RMSE на кросс-валидации, однако в качестве лучшей была признана базовая модель
LinearRegression
5. Тестирование лучшей модели
- RMSE на тестовой метрики составило 35.43941408769851, что соответствует критерию успеха от заказчика.
- Визуализировали правильные ответы и предсказанные лучшей моделью ответы.