AlfaCompML
NNetMax
Основная ветка master проекта тетрадки Jupyter для соревновательной задачи AlfaBank (https://www.kaggle.com/competitions/alfa-challenge). Основные особенности проекта:
1) Использован фича-инженеринг для генерации новых фичей при помощи группировки временных транзакций и фича-трюк для преобразования большого кол-ва категориальных фичей.
2) Использован фича-трюк для генерации 10 новых фичей из категориальных (можно у величить кол-во новых фичей).
3) Использован Optuna для поиска оптимальных гиперпраметров для XGBRegressor
4) Применен метод перебора для поиска наилучшего регрессора в качестве базовой модели без оптимальных гиперпараметров.
5) Используется запись в файлы новых дата-сетов, т.к. их генерация занимает большое кол-во времени.
6) Используется запись в файл наилучших гиперпараметров в файл.
7) Используется сохранене модели в файл *.pkl для сохранения обученной модели.
8) Итак основные хар-ки проекта:
8.1) Фича-трюк с генератором 10 новых фичей из исходных категориальных фичей
8.2) Базовая модель XGBRegressor
8.3) Основная метрика используемая в алгоритмах MAE (возможно нужно заменить на MSE/RMSE)
8.2) Optuna
8.4) Преобразование полученых искомых таргетов в тип int32
8.5) Private score WMAE=0.77694
8.6) Public score WMAE=0.77833
9) Добавлено использование DVC.
10) Добавлены .dvc/.gitignore .dvc/config в репозиторий git.
10) В DVC добавлены снимки входных файлов датасетов и выходных файлов модели, результатов и сгенерированных фичей.
год назад
NetMax
Основная ветка master проекта тетрадки Jupyter для соревновательной задачи AlfaBank (https://www.kaggle.com/competitions/alfa-challenge). Основные особенности проекта: 1) Использован фича-инженеринг для генерации новых фичей при помощи группировки временных транзакций и фича-трюк для преобразования большого кол-ва категориальных фичей. 2) Использован фича-трюк для генерации 10 новых фичей из категориальных (можно у величить кол-во новых фичей). 3) Использован Optuna для поиска оптимальных гиперпраметров для XGBRegressor 4) Применен метод перебора для поиска наилучшего регрессора в качестве базовой модели без оптимальных гиперпараметров. 5) Используется запись в файлы новых дата-сетов, т.к. их генерация занимает большое кол-во времени. 6) Используется запись в файл наилучших гиперпараметров в файл. 7) Используется сохранене модели в файл *.pkl для сохранения обученной модели. 8) Итак основные хар-ки проекта: 8.1) Фича-трюк с генератором 10 новых фичей из исходных категориальных фичей 8.2) Базовая модель XGBRegressor 8.3) Основная метрика используемая в алгоритмах MAE (возможно нужно заменить на MSE/RMSE) 8.2) Optuna 8.4) Преобразование полученых искомых таргетов в тип int32 8.5) Private score WMAE=0.77694 8.6) Public score WMAE=0.77833 9) Добавлено использование DVC. 10) Добавлены .dvc/.gitignore .dvc/config в репозиторий git. 10) В DVC добавлены снимки входных файлов датасетов и выходных файлов модели, результатов и сгенерированных фичей.
Описание
Проект ML для соревновательной задачи Alfa Bank (https://www.kaggle.com/competitions/alfa-challenge).
Языки
- Jupyter Notebook100%
Описание
Проект ML для соревновательной задачи Alfa Bank (https://www.kaggle.com/competitions/alfa-challenge).
Языки
- Jupyter Notebook100%