evo-ml-jupyter-sample

0

Описание

Языки

  • Jupyter Notebook99,4%
  • Python0,6%
README.md

evo-ml-jupyter-sample

В этом репозитории приведены примеры тетрадок, которые могут быть переиспользованы в Jupyter Notebook Cloud.ru для запуска обучения, как распределенного, так и в рамках одной машины. Примеры построены так, что для запуска их достаточно загрузить на платформу (вручную/с помощью инструментов внутри Jupyter ноутбука).

1. Обучение напрямую на выделенных GPU

При таком варианте обучения максимальное количество выделенных GPU — 16. Подходит для пользователей, не знакомых с библиотекой Horovod.

Оплата взимается, пока Jupyter Server не будет удален, даже если он не используется.

Подробнее о создании Jupyter Server — в документации.

Список примеров доступен в quick_start/jupyter

2. Обучение в регионе с помощью
client_lib

При таком варианте обучения можно задействовать до 1000 GPU. Оплата происходит за фактическое время исполнения задачи: от старта до окончания обучения.

Подробнее о работе с

client_lib
— в документации.

Список примеров доступен в quick_start/distributed

3. Примеры обучения моделей

Примеры обучения моделей под разные задачи:

  • hugging-face-llm-example — работа с языковой моделью методами LoRA и PEFT, а также распределенное обучение с PyTorch Distributed Data Parallel (DDP).
  • mnist-data-parallel-mlflow-example — обучение модели для классификации на учебном датасете MNIST с использованием DataParallel и
    MLFlow
    .
  • lightning — обучение модели для классификации кошек и собак с использованием [PyTorchLightning].
  • rapids — препроцессинг данных на GPU, используя библиотеки Rapids и Dask.
  • spark - препроцессинг с использованием PySpark в Jupyter Notebook.
  • job-launch-xxx - обучение модели с использованием задач обучения.
  • mmdetection - обучение предобученной модели из
    mmdetection
    с использованием задач обучения.