Kandinsky-5

16
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
2 месяца назад
2 месяца назад
4 месяца назад
4 месяца назад
4 месяца назад
README.md
Shows an illustrated sun in light mode and a moon with stars in dark mode.

Kandinsky 5.0: Семейcтво диффузионных моделей для генерации изображений и видео

В этом репозитории мы предоставляем семейство диффузионных моделей для генерации видео или изображений на основе текстового запроса и/или изображения.

Новости проекта

  • 🔥
    2025/12/12
    : Kandinsky 5.0 Video Pro занял 1-е место среди open-source моделей Text-to-Video в рейтинге LMArena.
  • 🔥
    2025/12/03
    : наши модели Kandinsky 5.0 Video Pro и Image Lite приняты в diffusers.
  • 🔥
    2025/11/26
    : упрощённое обучение LoRa доступно в репозитории kandinsky-5-lora-train.
  • 🔥
    2025/11/24
    : LoRas для управления камерой выложены в open source: Lite LoRAs и Pro LoRAs. Код для инференса доступен в
    examples/inference_examples_i2v_lora.ipynb
    и
    examples/inference_examples_t2v_lora.ipynb
    .
  • 🔥
    2025/11/20
    :
    Kandinsky 5.0 Video Pro
    выложен в open source. Доступны модели T2V и I2V.
  • 🔥
    2025/11/15
    : модели
    Kandinsky 5.0 Lite I2V
    и
    Kandinsky 5.0 Lite T2I
    выложены в open source.
  • 🔥
    2025/10/19
    : дальнейшая оптимизация тайлинга VAE. Поддерживается версия NF4 модели Qwen2.5-VL из Bitsandbytes. Для 5-секундной генерации можно выбрать Flash Attention 2, Flash Attention 2, Sage Attention или SDPA с помощью опции
    --attention_engine
    . Теперь генерация должна работать на GPU с 12 ГБ памяти. Kandinsky 5 Video Lite принят в diffusers.
  • 🔥
    2025/10/07
    : обновлён README для ComfyUI. Добавлена поддержка SDPA, позволяющая запускать код без Flash Attention. Добавлена поддержка Magcache для чекпойнтов nocfg, что позволяет использовать Magcache с чекпойнтами sft и nocfg. Снижено потребление памяти в VAE — теперь весь пайплайн работает при 24 ГБ с offloading.
  • 🔥
    2025/09/29
    : мы выложили в open source
    Kandinsky 5.0 T2V Lite
    — облегчённую (2B параметров) версию модели генерации видео по тексту
    Kandinsky 5.0 Video
    . Выпущенные чекпойнты:
    kandinsky5lite_t2v_pretrain_5s
    ,
    kandinsky5lite_t2v_pretrain_10s
    ,
    kandinsky5lite_t2v_sft_5s
    ,
    kandinsky5lite_t2v_sft_10s
    ,
    kandinsky5lite_t2v_nocfg_5s
    ,
    kandinsky5lite_t2v_nocfg_10s
    ,
    kandinsky5lite_t2v_distilled16steps_5s
    ,
    kandinsky5lite_t2v_distilled16steps_10s
    . Они содержат веса, полученные на этапах pretrain, supervised finetuning, CFG-дистилляции и диффузионной дистилляции до 16 шагов. Чекпойнты
    5s
    способны генерировать видео длительностью до 5 секунд. Чекпойнты
    10s
    — это более быстрые модели, обученные с использованием алгоритма NABLA, и они способны генерировать видео длительностью до 10 секунд.

Содержание

  1. Kandinsky 5.0 Video Pro
  2. Kandinsky 5.0 Video Lite
  3. Kandinsky 5.0 Image Lite
  4. Kandinsky 5.0 Image Editing
  5. Быстрый старт и примеры запуска

Kandinsky 5.0 Video Pro

Kandinsky 5.0 Video Pro — это линейка моделей с 19 млрд параметров, предназначенная для генерации высококачественных HD-видео по текстовым запросам на английском и русском языках с управляемым движением камеры.

Мы предоставляем 8 вариантов моделей Text-to-Video, каждый из которых оптимизирован под разные сценарии использования:

  • SFT-модель — обеспечивает наивысшее качество генерации;

Все модели доступны в двух версиях: для генерации видео длительностью 5 и 10 секунд.

Кроме того, мы предоставляем модель Image-to-Video, способную генерировать видео на основе входного изображения и текстового запроса.

Pipeline

Латентный диффузионный пайплайн с Flow Matching.

Diffusion Transformer (DiT) в качестве основной генеративной архитектуры с cross-attention к текстовым эмбеддингам.

  • Qwen2.5-VL и CLIP предоставляют текстовые эмбеддинги.

  • HunyuanVideo 3D VAE кодирует и декодирует видео в латентное пространство.

  • DiT — основной генеративный модуль, использующий cross-attention для условной генерации по тексту.

Зоопарк моделей

МодельконфигДлительность видеоNFEЧекпоинтВремя генерации*
Kandinsky 5.0 T2V Pro SFT 5s HDconfigs/k5_pro_t2v_5s_sft_hd.yaml5s100🤗 HF1241
Kandinsky 5.0 T2V Pro SFT 10s HDconfigs/k5_pro_t2v_10s_sft_hd.yaml10s100🤗 HF-
Kandinsky 5.0 T2V Pro SFT 5s SDconfigs/k5_pro_t2v_5s_sft_sd.yaml5s100🤗 HF560
Kandinsky 5.0 T2V Pro SFT 10s SDconfigs/k5_pro_t2v_10s_sft_sd.yaml10s100🤗 HF1158
Kandinsky 5.0 T2V Pro pretrain 5s HD-5s100🤗 HF1241
Kandinsky 5.0 T2V Pro pretrain 10s HD-10s100🤗 HF-
Kandinsky 5.0 T2V Pro pretrain 5s SD-5s100🤗 HF560
Kandinsky 5.0 T2V Pro pretrain 10s SD-10s100🤗 HF1158
Kandinsky 5.0 I2V Pro HD 5sconfigs/k5_pro_i2v_5s_sft_hd.yaml5s100🤗 HF-
Kandinsky 5.0 I2V Pro SD 5sconfigs/k5_pro_i2v_5s_sft_sd.yaml5s100🤗 HF-

Время генерации измерялось после второго запуска инференса. Первый запуск модели может быть медленнее из-за процесса компиляции. Инференс измерялся на GPU NVIDIA H100 с 80 ГБ памяти с использованием CUDA 12.8.1 и PyTorch 2.8. Для 5-секундных моделей использовался Flash Attention 3.

Kandinsky 5.0 Video Lite

Kandinsky 5.0 T2V Lite — это облегчённая модель генерации видео (2 млрд параметров), которая занимает 1-е место среди open-source моделей в своём классе. Она превосходит более крупные модели Wan (5B и 14B) и обеспечивает лучшее понимание русскоязычных концепций в open-source экосистеме.

Мы предоставляем 8 вариантов моделей, каждый из которых оптимизирован под разные сценарии использования:

  • SFT-модель — обеспечивает наивысшее качество генерации;

  • CFG-дистиллированная — работает в 2 раза быстрее;

  • Диффузионно-дистиллированная — обеспечивает генерацию с низкой задержкой при минимальной потере качества (в 6 раз быстрее);

  • Pretrain-модель — предназначена для дообучения исследователями и энтузиастами.

Все модели доступны в двух версиях: для генерации видео длительностью 5 и 10 секунд.

Кроме того, мы предоставляем модель Image-to-Video, способную генерировать видео на основе входного изображения и текстового запроса.

Зоопарк моделей

МодельконфигДлительность видеоNFEЧекпоинтВремя генерации*
Kandinsky 5.0 T2V Lite SFT 5sconfigs/k5_lite_t2v_5s_sft_sd.yaml5s100🤗 HF139 s
Kandinsky 5.0 T2V Lite SFT 10sconfigs/k5_lite_t2v_10s_sft_sd.yaml10s100🤗 HF224 s
Kandinsky 5.0 T2V Lite pretrain 5sconfigs/k5_lite_t2v_5s_pretrain_sd.yaml5s100🤗 HF139 s
Kandinsky 5.0 T2V Lite pretrain 10sconfigs/k5_lite_t2v_10s_pretrain_sd.yaml10s100🤗 HF224 s
Kandinsky 5.0 T2V Lite no-CFG 5sconfigs/k5_lite_t2v_5s_nocfg_sd.yaml5s50🤗 HF77 s
Kandinsky 5.0 T2V Lite no-CFG 10sconfigs/k5_lite_t2v_10s_nocfg_sd.yaml10s50🤗 HF124 s
Kandinsky 5.0 T2V Lite distill 5sconfigs/k5_lite_t2v_5s_distil_sd.yaml5s16🤗 HF35 s
Kandinsky 5.0 T2V Lite distill 10sconfigs/k5_lite_t2v_10s_distil_sd.yaml10s16🤗 HF61 s
Kandinsky 5.0 I2V Lite 5sconfigs/k5_lite_i2v_5s_sft_sd.yaml5s100🤗 HF139 s

Время генерации измерялось после второго запуска инференса. Первый запуск модели может быть медленнее из-за процесса компиляции. Инференс измерялся на GPU NVIDIA H100 с 80 ГБ памяти с использованием CUDA 12.8.1 и PyTorch 2.8. Для 5-секундных моделей использовался Flash Attention 3.

Результаты:

Side-by-Side оценка

Оценка основана на расширенных промптах из бенчмарка Movie Gen, которые доступны в колонке

expanded_prompt
файла
benchmark/moviegen_bench.csv
.

Side-by-Side оценка дистиллированных моделей

Kandinsky 5.0 Image Lite

Kandinsky 5.0 Image Lite — это линейка моделей генерации изображений с 6 млрд параметров со следующими возможностями:

  • Разрешение 1K (1280x768, 1024x1024 и другие).

  • Высокое визуальное качество.

  • Сильная генерация текста на изображениях.

  • Понимание русскоязычных концепций.

Зоопарк моделей

МодельконфигNFEЧекпоинтВремя генерации*
Kandinsky 5.0 T2I Liteconfigs/k5_lite_t2i_sft_hd.yaml100🤗 HF13 s
Kandinsky 5.0 T2I Lite pretrain-100🤗 HF13 s

*Время генерации измерялось после второго запуска инференса. Первый запуск модели может быть медленнее из-за процесса компиляции. Инференс измерялся на GPU NVIDIA H100 с 80 ГБ памяти с использованием CUDA 12.8.1 и PyTorch 2.8.

Kandinsky 5.0 Image Editing

Kandinsky 5.0 Image Editing — это линейка моделей редактирования изображений с 6 млрд параметров со следующими возможностями:

  • Разрешение 1K (1280x768, 1024x1024 и другие).

  • Высокое визуальное качество.

  • Сильная генерация текста на изображениях.

  • Понимание русскоязычных концепций.

Зоопарк моделей

МодельконфигNFEЧекпоинтВремя генерации*
Kandinsky 5.0 T2I Editingconfigs/k5_lite_i2i_sft_hd.yaml100🤗 HF-
Kandinsky 5.0 T2I Editing pretrain-100🤗 HF-

*Время генерации измерялось после второго запуска инференса. Первый запуск модели может быть медленнее из-за процесса компиляции. Инференс измерялся на GPU NVIDIA H100 с 80 ГБ памяти с использованием CUDA 12.8.1 и PyTorch 2.8.

Быстрый старт

Установка

Склонируйте репозиторий:

Установите зависимости:

Для повышения производительности на видеокартах NVidia Hopper, мы рекомендуем установить Flash Attention 3.

Скачайте модели

Используйте аргумент

models
чтобы скачать отдельные модели. По-умолчанию скачиваются все модели.

Пример скачивания

kandinskylab/Kandinsky-5.0-T2V-Lite-sft-5s
и
kandinskylab/Kandinsky-5.0-T2V-Pro-sft-5s
:

Запуск Kandinsky 5.0 T2V Lite SFT 5s

Запуск Kandinsky 5.0 T2V Lite SFT 10s

Запуск Kandinsky 5.0 I2V Lite 5s

Запуск Kandinsky 5.0 T2I Lite

T2V инференс

I2V Inference

T2I инференс

I2I инференс

Больше примернов можно найти в examples.

Распределённый инференс

Для более быстрого инференса мы также предоставляем возможность выполнять инференс в распределённом режиме:

NUMBER_OF_NODES=1 NUMBER_OF_DEVICES_PER_NODE=1 / 2 / 4 python -m torch.distributed.launch --nnodes $NUMBER_OF_NODES --nproc-per-node $NUMBER_OF_DEVICES_PER_NODE test.py

Оптимизированный инференс

Выгрузка в ОЗУ

Для снижения потребления памяти можно использовать выгрузку моделей в ОЗУ.

Magcache

Also we provide Magcache inference for faster generations (now available for sft 5s and sft 10s checkpoints). Также мы предоставляем инференс с использованием Magcache для более быстрой генерации (в настоящее время доступно для чекпойнтов sft 5s и sft 10s).

Квантование Qwen-энкодера

Для снижения потребления GPU-памяти энкодером Qwen мы предоставляем опцию использования NF4-квантованной версии из bitsandbytes.

Выбор attention-движка

В зависимости от вашего оборудования вы можете использовать одну из следующих реализаций full attention:

Алгоритм attention можно выбрать с помощью опции "--attention_engine" в скрипте test.py для генерации видео длительностью 5 секунд (и меньше). Для генерации 10-секундных видео используется разреженный алгоритм внимания NABLA.

Обратите внимание, что текущая версия (на 19 октября 2025 года), собранная из исходников, содержит баг и генерирует зашумлённый результат. Временное решение описано здесь.

По умолчанию используется опция --attention_engine=auto, которая автоматически выбирает наиболее оптимальный алгоритм, установленный в вашей системе.

ComfyUI

См. инструкцию здесь

CacheDiT

cache-dit предоставляет поддержку Fully Cache Acceleration для Kandinsky-5 с использованием DBCache, TaylorSeer и Cache CFG. Подробнее см. пример.

Бета-тестирование

Вы можете подать заявку на участие в бета-тестировании Kandinsky Video через telegram-бота.

📑 Todo List

  • Kandinsky 5.0 Video Pro
    • Чекпоинты
      • sft
      • pretrain
      • rl
      • distil 16 steps
      • I2V
    • Интеграция в ComfyUI
    • Интеграция в Diffusers
    • Поддержка кэширования
    • Multi-GPU инференс
  • Kandinsky 5.0 Video Lite
    • Чекпоинты
      • sft
      • pretrain
      • rl
      • cfg distil
      • distil 16 steps
      • авторегрессия
      • I2V
    • ComfyUI integration
    • Интеграция в Diffusers
    • Поддержка кэширования
    • Multi-GPU инференс
  • Kandinsky 5.0 Image Lite
    • Чекпоинты
      • rl
      • pretrain
    • ComfyUI integration
    • Интеграция в Diffusers
    • Поддержка кэширования
    • Multi-GPU инференс
  • Kandinsky 5.0 Image Editing
    • Чекпоинты
      • sft
      • pretrain
    • ComfyUI integration
    • Интеграция в Diffusers
    • Поддержка кэширования
    • Multi-GPU инференс
  • Технический отчёт

Авторы

Основные участники:

  • Видео: Алексей Летуновский, Мария Ковалёва, Лев Новицкий, Денис Копосов, Дмитрий Михайлов, Анастасия Каргапольцева, Анна Дмитриенко, Анастасия Мальцева
  • Изображения и редактирование: Николай Ваулин, Никита Киселёв, Александр Варламов
  • Pre-training Данные: Иван Кириллов, Андрей Шуткин, Николай Ваулин, Илья Васильев
  • Post-training Данные: Юлия Агафонова, Анна Аверченкова, Ольга Ким
  • Исследования и публикации: Viacheslav Vasilev, Vladimir Polovnikov

Участники: Юрий Колабушин, Кирилл Чернышев, Александр Белых, Михаил Мамаев, Анастасия Аляскина, Семён Кормилицын, Татьяна Никулина, Ольга Вдовченко, Полина Михайлова, Полина Гаврилова, Никита Остеров, Булат Ахматов

Руководители направлений: Владимир Архипкин, Владимир Корвяков, Николай Герасименко, Денис Пархоменко

Руководитель проекта: Денис Димитров

Цитирование

@misc{arkhipkin2025kandinsky50familyfoundation, title={Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation}, author={Vladimir Arkhipkin and Vladimir Korviakov and Nikolai Gerasimenko and Denis Parkhomenko and Viacheslav Vasilev and Alexey Letunovskiy and Nikolai Vaulin and Maria Kovaleva and Ivan Kirillov and Lev Novitskiy and Denis Koposov and Nikita Kiselev and Alexander Varlamov and Dmitrii Mikhailov and Vladimir Polovnikov and Andrey Shutkin and Julia Agafonova and Ilya Vasiliev and Anastasiia Kargapoltseva and Anna Dmitrienko and Anastasia Maltseva and Anna Averchenkova and Olga Kim and Tatiana Nikulina and Denis Dimitrov}, year={2025}, eprint={2511.14993}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2511.14993}, } @misc{mikhailov2025nablanablaneighborhoodadaptiveblocklevel, title={$\nabla$NABLA: Neighborhood Adaptive Block-Level Attention}, author={Dmitrii Mikhailov and Aleksey Letunovskiy and Maria Kovaleva and Vladimir Arkhipkin and Vladimir Korviakov and Vladimir Polovnikov and Viacheslav Vasilev and Evelina Sidorova and Denis Dimitrov}, year={2025}, eprint={2507.13546}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.13546}, }

Благодарности

Мы выражаем искреннюю благодарность open-source проектам и исследованиям, которые сделали Kandinsky 5.0 возможным:

  • PyTorch — за обучение и инференс моделей.
  • FlashAttention 3 — за эффективный механизм внимания и ускорение инференса.
  • Qwen2.5-VL — за предоставление высококачественных текстовых эмбеддингов.
  • CLIP — за надёжные эмбеддинги текста и изображений.
  • HunyuanVideo — а кодирование и декодирование видео латентов.
  • MagCache — за ускоренный инференс.
  • ComfyUI — за интеграцию в node-based пайплайны.

Мы глубоко ценим вклад этих сообществ и исследователей в open-source экосистему.