Kandinsky-5
Kandinsky 5.0: Семейcтво диффузионных моделей для генерации изображений и видео
В этом репозитории мы предоставляем семейство диффузионных моделей для генерации видео или изображений на основе текстового запроса и/или изображения.
Новости проекта
- 🔥
: Kandinsky 5.0 Video Pro занял 1-е место среди open-source моделей Text-to-Video в рейтинге LMArena.2025/12/12 - 🔥
: наши модели Kandinsky 5.0 Video Pro и Image Lite приняты в diffusers.2025/12/03 - 🔥
: упрощённое обучение LoRa доступно в репозитории kandinsky-5-lora-train.2025/11/26 - 🔥
: LoRas для управления камерой выложены в open source: Lite LoRAs и Pro LoRAs. Код для инференса доступен в2025/11/24иexamples/inference_examples_i2v_lora.ipynb.examples/inference_examples_t2v_lora.ipynb - 🔥
:2025/11/20выложен в open source. Доступны модели T2V и I2V.Kandinsky 5.0 Video Pro - 🔥
: модели2025/11/15иKandinsky 5.0 Lite I2Vвыложены в open source.Kandinsky 5.0 Lite T2I - 🔥
: дальнейшая оптимизация тайлинга VAE. Поддерживается версия NF4 модели Qwen2.5-VL из Bitsandbytes. Для 5-секундной генерации можно выбрать Flash Attention 2, Flash Attention 2, Sage Attention или SDPA с помощью опции2025/10/19. Теперь генерация должна работать на GPU с 12 ГБ памяти. Kandinsky 5 Video Lite принят в diffusers.--attention_engine - 🔥
: обновлён README для ComfyUI. Добавлена поддержка SDPA, позволяющая запускать код без Flash Attention. Добавлена поддержка Magcache для чекпойнтов nocfg, что позволяет использовать Magcache с чекпойнтами sft и nocfg. Снижено потребление памяти в VAE — теперь весь пайплайн работает при 24 ГБ с offloading.2025/10/07 - 🔥
: мы выложили в open source2025/09/29— облегчённую (2B параметров) версию модели генерации видео по текстуKandinsky 5.0 T2V Lite. Выпущенные чекпойнты:Kandinsky 5.0 Video,kandinsky5lite_t2v_pretrain_5s,kandinsky5lite_t2v_pretrain_10s,kandinsky5lite_t2v_sft_5s,kandinsky5lite_t2v_sft_10s,kandinsky5lite_t2v_nocfg_5s,kandinsky5lite_t2v_nocfg_10s,kandinsky5lite_t2v_distilled16steps_5s. Они содержат веса, полученные на этапах pretrain, supervised finetuning, CFG-дистилляции и диффузионной дистилляции до 16 шагов. Чекпойнтыkandinsky5lite_t2v_distilled16steps_10sспособны генерировать видео длительностью до 5 секунд. Чекпойнты5s— это более быстрые модели, обученные с использованием алгоритма NABLA, и они способны генерировать видео длительностью до 10 секунд.10s
Содержание
- Kandinsky 5.0 Video Pro
- Kandinsky 5.0 Video Lite
- Kandinsky 5.0 Image Lite
- Kandinsky 5.0 Image Editing
- Быстрый старт и примеры запуска
Kandinsky 5.0 Video Pro
Kandinsky 5.0 Video Pro — это линейка моделей с 19 млрд параметров, предназначенная для генерации высококачественных HD-видео по текстовым запросам на английском и русском языках с управляемым движением камеры.
Мы предоставляем 8 вариантов моделей Text-to-Video, каждый из которых оптимизирован под разные сценарии использования:
- SFT-модель — обеспечивает наивысшее качество генерации;
Все модели доступны в двух версиях: для генерации видео длительностью 5 и 10 секунд.
Кроме того, мы предоставляем модель Image-to-Video, способную генерировать видео на основе входного изображения и текстового запроса.
Pipeline
Латентный диффузионный пайплайн с Flow Matching.
Diffusion Transformer (DiT) в качестве основной генеративной архитектуры с cross-attention к текстовым эмбеддингам.
-
Qwen2.5-VL и CLIP предоставляют текстовые эмбеддинги.
-
HunyuanVideo 3D VAE кодирует и декодирует видео в латентное пространство.
-
DiT — основной генеративный модуль, использующий cross-attention для условной генерации по тексту.
Зоопарк моделей
| Модель | конфиг | Длительность видео | NFE | Чекпоинт | Время генерации* |
|---|---|---|---|---|---|
| Kandinsky 5.0 T2V Pro SFT 5s HD | configs/k5_pro_t2v_5s_sft_hd.yaml | 5s | 100 | 🤗 HF | 1241 |
| Kandinsky 5.0 T2V Pro SFT 10s HD | configs/k5_pro_t2v_10s_sft_hd.yaml | 10s | 100 | 🤗 HF | - |
| Kandinsky 5.0 T2V Pro SFT 5s SD | configs/k5_pro_t2v_5s_sft_sd.yaml | 5s | 100 | 🤗 HF | 560 |
| Kandinsky 5.0 T2V Pro SFT 10s SD | configs/k5_pro_t2v_10s_sft_sd.yaml | 10s | 100 | 🤗 HF | 1158 |
| Kandinsky 5.0 T2V Pro pretrain 5s HD | - | 5s | 100 | 🤗 HF | 1241 |
| Kandinsky 5.0 T2V Pro pretrain 10s HD | - | 10s | 100 | 🤗 HF | - |
| Kandinsky 5.0 T2V Pro pretrain 5s SD | - | 5s | 100 | 🤗 HF | 560 |
| Kandinsky 5.0 T2V Pro pretrain 10s SD | - | 10s | 100 | 🤗 HF | 1158 |
| Kandinsky 5.0 I2V Pro HD 5s | configs/k5_pro_i2v_5s_sft_hd.yaml | 5s | 100 | 🤗 HF | - |
| Kandinsky 5.0 I2V Pro SD 5s | configs/k5_pro_i2v_5s_sft_sd.yaml | 5s | 100 | 🤗 HF | - |
Время генерации измерялось после второго запуска инференса. Первый запуск модели может быть медленнее из-за процесса компиляции. Инференс измерялся на GPU NVIDIA H100 с 80 ГБ памяти с использованием CUDA 12.8.1 и PyTorch 2.8. Для 5-секундных моделей использовался Flash Attention 3.
Kandinsky 5.0 Video Lite
Kandinsky 5.0 T2V Lite — это облегчённая модель генерации видео (2 млрд параметров), которая занимает 1-е место среди open-source моделей в своём классе. Она превосходит более крупные модели Wan (5B и 14B) и обеспечивает лучшее понимание русскоязычных концепций в open-source экосистеме.
Мы предоставляем 8 вариантов моделей, каждый из которых оптимизирован под разные сценарии использования:
-
SFT-модель — обеспечивает наивысшее качество генерации;
-
CFG-дистиллированная — работает в 2 раза быстрее;
-
Диффузионно-дистиллированная — обеспечивает генерацию с низкой задержкой при минимальной потере качества (в 6 раз быстрее);
-
Pretrain-модель — предназначена для дообучения исследователями и энтузиастами.
Все модели доступны в двух версиях: для генерации видео длительностью 5 и 10 секунд.
Кроме того, мы предоставляем модель Image-to-Video, способную генерировать видео на основе входного изображения и текстового запроса.
Зоопарк моделей
| Модель | конфиг | Длительность видео | NFE | Чекпоинт | Время генерации* |
|---|---|---|---|---|---|
| Kandinsky 5.0 T2V Lite SFT 5s | configs/k5_lite_t2v_5s_sft_sd.yaml | 5s | 100 | 🤗 HF | 139 s |
| Kandinsky 5.0 T2V Lite SFT 10s | configs/k5_lite_t2v_10s_sft_sd.yaml | 10s | 100 | 🤗 HF | 224 s |
| Kandinsky 5.0 T2V Lite pretrain 5s | configs/k5_lite_t2v_5s_pretrain_sd.yaml | 5s | 100 | 🤗 HF | 139 s |
| Kandinsky 5.0 T2V Lite pretrain 10s | configs/k5_lite_t2v_10s_pretrain_sd.yaml | 10s | 100 | 🤗 HF | 224 s |
| Kandinsky 5.0 T2V Lite no-CFG 5s | configs/k5_lite_t2v_5s_nocfg_sd.yaml | 5s | 50 | 🤗 HF | 77 s |
| Kandinsky 5.0 T2V Lite no-CFG 10s | configs/k5_lite_t2v_10s_nocfg_sd.yaml | 10s | 50 | 🤗 HF | 124 s |
| Kandinsky 5.0 T2V Lite distill 5s | configs/k5_lite_t2v_5s_distil_sd.yaml | 5s | 16 | 🤗 HF | 35 s |
| Kandinsky 5.0 T2V Lite distill 10s | configs/k5_lite_t2v_10s_distil_sd.yaml | 10s | 16 | 🤗 HF | 61 s |
| Kandinsky 5.0 I2V Lite 5s | configs/k5_lite_i2v_5s_sft_sd.yaml | 5s | 100 | 🤗 HF | 139 s |
Время генерации измерялось после второго запуска инференса. Первый запуск модели может быть медленнее из-за процесса компиляции. Инференс измерялся на GPU NVIDIA H100 с 80 ГБ памяти с использованием CUDA 12.8.1 и PyTorch 2.8. Для 5-секундных моделей использовался Flash Attention 3.
Результаты:
Side-by-Side оценка
Оценка основана на расширенных промптах из бенчмарка Movie Gen, которые доступны в колонке файла .
|
|
|
|
|
Side-by-Side оценка дистиллированных моделей
|
|
Kandinsky 5.0 Image Lite
Kandinsky 5.0 Image Lite — это линейка моделей генерации изображений с 6 млрд параметров со следующими возможностями:
-
Разрешение 1K (1280x768, 1024x1024 и другие).
-
Высокое визуальное качество.
-
Сильная генерация текста на изображениях.
-
Понимание русскоязычных концепций.
Зоопарк моделей
| Модель | конфиг | NFE | Чекпоинт | Время генерации* |
|---|---|---|---|---|
| Kandinsky 5.0 T2I Lite | configs/k5_lite_t2i_sft_hd.yaml | 100 | 🤗 HF | 13 s |
| Kandinsky 5.0 T2I Lite pretrain | - | 100 | 🤗 HF | 13 s |
*Время генерации измерялось после второго запуска инференса. Первый запуск модели может быть медленнее из-за процесса компиляции. Инференс измерялся на GPU NVIDIA H100 с 80 ГБ памяти с использованием CUDA 12.8.1 и PyTorch 2.8.
Kandinsky 5.0 Image Editing
Kandinsky 5.0 Image Editing — это линейка моделей редактирования изображений с 6 млрд параметров со следующими возможностями:
-
Разрешение 1K (1280x768, 1024x1024 и другие).
-
Высокое визуальное качество.
-
Сильная генерация текста на изображениях.
-
Понимание русскоязычных концепций.
Зоопарк моделей
| Модель | конфиг | NFE | Чекпоинт | Время генерации* |
|---|---|---|---|---|
| Kandinsky 5.0 T2I Editing | configs/k5_lite_i2i_sft_hd.yaml | 100 | 🤗 HF | - |
| Kandinsky 5.0 T2I Editing pretrain | - | 100 | 🤗 HF | - |
*Время генерации измерялось после второго запуска инференса. Первый запуск модели может быть медленнее из-за процесса компиляции. Инференс измерялся на GPU NVIDIA H100 с 80 ГБ памяти с использованием CUDA 12.8.1 и PyTorch 2.8.
Быстрый старт
Установка
Склонируйте репозиторий:
Установите зависимости:
Для повышения производительности на видеокартах NVidia Hopper, мы рекомендуем установить Flash Attention 3.
Скачайте модели
Используйте аргумент чтобы скачать отдельные модели. По-умолчанию скачиваются все модели.
Пример скачивания и :
Запуск Kandinsky 5.0 T2V Lite SFT 5s
Запуск Kandinsky 5.0 T2V Lite SFT 10s
Запуск Kandinsky 5.0 I2V Lite 5s
Запуск Kandinsky 5.0 T2I Lite
T2V инференс
I2V Inference
T2I инференс
I2I инференс
Больше примернов можно найти в examples.
Распределённый инференс
Для более быстрого инференса мы также предоставляем возможность выполнять инференс в распределённом режиме:
NUMBER_OF_NODES=1
NUMBER_OF_DEVICES_PER_NODE=1 / 2 / 4
python -m torch.distributed.launch --nnodes $NUMBER_OF_NODES --nproc-per-node $NUMBER_OF_DEVICES_PER_NODE test.py
Оптимизированный инференс
Выгрузка в ОЗУ
Для снижения потребления памяти можно использовать выгрузку моделей в ОЗУ.
Magcache
Also we provide Magcache inference for faster generations (now available for sft 5s and sft 10s checkpoints). Также мы предоставляем инференс с использованием Magcache для более быстрой генерации (в настоящее время доступно для чекпойнтов sft 5s и sft 10s).
Квантование Qwen-энкодера
Для снижения потребления GPU-памяти энкодером Qwen мы предоставляем опцию использования NF4-квантованной версии из bitsandbytes.
Выбор attention-движка
В зависимости от вашего оборудования вы можете использовать одну из следующих реализаций full attention:
Алгоритм attention можно выбрать с помощью опции "--attention_engine" в скрипте test.py для генерации видео длительностью 5 секунд (и меньше). Для генерации 10-секундных видео используется разреженный алгоритм внимания NABLA.
Обратите внимание, что текущая версия (на 19 октября 2025 года), собранная из исходников, содержит баг и генерирует зашумлённый результат. Временное решение описано здесь.
По умолчанию используется опция --attention_engine=auto, которая автоматически выбирает наиболее оптимальный алгоритм, установленный в вашей системе.
ComfyUI
См. инструкцию здесь
CacheDiT
cache-dit предоставляет поддержку Fully Cache Acceleration для Kandinsky-5 с использованием DBCache, TaylorSeer и Cache CFG. Подробнее см. пример.
Бета-тестирование
Вы можете подать заявку на участие в бета-тестировании Kandinsky Video через telegram-бота.
📑 Todo List
- Kandinsky 5.0 Video Pro
- Чекпоинты
- sft
- pretrain
- rl
- distil 16 steps
- I2V
- Интеграция в ComfyUI
- Интеграция в Diffusers
- Поддержка кэширования
- Multi-GPU инференс
- Чекпоинты
- Kandinsky 5.0 Video Lite
- Чекпоинты
- sft
- pretrain
- rl
- cfg distil
- distil 16 steps
- авторегрессия
- I2V
- ComfyUI integration
- Интеграция в Diffusers
- Поддержка кэширования
- Multi-GPU инференс
- Чекпоинты
- Kandinsky 5.0 Image Lite
- Чекпоинты
- rl
- pretrain
- ComfyUI integration
- Интеграция в Diffusers
- Поддержка кэширования
- Multi-GPU инференс
- Чекпоинты
- Kandinsky 5.0 Image Editing
- Чекпоинты
- sft
- pretrain
- ComfyUI integration
- Интеграция в Diffusers
- Поддержка кэширования
- Multi-GPU инференс
- Чекпоинты
- Технический отчёт
Авторы
Основные участники:
- Видео: Алексей Летуновский, Мария Ковалёва, Лев Новицкий, Денис Копосов, Дмитрий Михайлов, Анастасия Каргапольцева, Анна Дмитриенко, Анастасия Мальцева
- Изображения и редактирование: Николай Ваулин, Никита Киселёв, Александр Варламов
- Pre-training Данные: Иван Кириллов, Андрей Шуткин, Николай Ваулин, Илья Васильев
- Post-training Данные: Юлия Агафонова, Анна Аверченкова, Ольга Ким
- Исследования и публикации: Viacheslav Vasilev, Vladimir Polovnikov
Участники: Юрий Колабушин, Кирилл Чернышев, Александр Белых, Михаил Мамаев, Анастасия Аляскина, Семён Кормилицын, Татьяна Никулина, Ольга Вдовченко, Полина Михайлова, Полина Гаврилова, Никита Остеров, Булат Ахматов
Руководители направлений: Владимир Архипкин, Владимир Корвяков, Николай Герасименко, Денис Пархоменко
Руководитель проекта: Денис Димитров
Цитирование
@misc{arkhipkin2025kandinsky50familyfoundation,
title={Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation},
author={Vladimir Arkhipkin and Vladimir Korviakov and Nikolai Gerasimenko and Denis Parkhomenko and Viacheslav Vasilev and Alexey Letunovskiy and Nikolai Vaulin and Maria Kovaleva and Ivan Kirillov and Lev Novitskiy and Denis Koposov and Nikita Kiselev and Alexander Varlamov and Dmitrii Mikhailov and Vladimir Polovnikov and Andrey Shutkin and Julia Agafonova and Ilya Vasiliev and Anastasiia Kargapoltseva and Anna Dmitrienko and Anastasia Maltseva and Anna Averchenkova and Olga Kim and Tatiana Nikulina and Denis Dimitrov},
year={2025},
eprint={2511.14993},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2511.14993},
}
@misc{mikhailov2025nablanablaneighborhoodadaptiveblocklevel,
title={$\nabla$NABLA: Neighborhood Adaptive Block-Level Attention},
author={Dmitrii Mikhailov and Aleksey Letunovskiy and Maria Kovaleva and Vladimir Arkhipkin
and Vladimir Korviakov and Vladimir Polovnikov and Viacheslav Vasilev
and Evelina Sidorova and Denis Dimitrov},
year={2025},
eprint={2507.13546},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2507.13546},
}
Благодарности
Мы выражаем искреннюю благодарность open-source проектам и исследованиям, которые сделали Kandinsky 5.0 возможным:
- PyTorch — за обучение и инференс моделей.
- FlashAttention 3 — за эффективный механизм внимания и ускорение инференса.
- Qwen2.5-VL — за предоставление высококачественных текстовых эмбеддингов.
- CLIP — за надёжные эмбеддинги текста и изображений.
- HunyuanVideo — а кодирование и декодирование видео латентов.
- MagCache — за ускоренный инференс.
- ComfyUI — за интеграцию в node-based пайплайны.
Мы глубоко ценим вклад этих сообществ и исследователей в open-source экосистему.