gigachat3

1
5 месяцев назад
README.md

GigaChat 3 Ultra & Lightning

Открытые MoE-модели нового поколения: GigaChat 3 Ultra Preview (702B-A36B) и GigaChat 3 Lightning (10B-A1.8B).

В этом году мы уже представили линейку GigaChat 2, добавили Reasoning в Web-версию (giga.chat), открыли GigaChat Lite и Giga-Embeddings и заняли первое место на бенчмарке ruMTEB.
Теперь мы публикуем открытые веса MoE-моделей нового поколения, обученных с нуля, без зависимости от зарубежных весов.

Мы открываем веса двух моделей, доступных сообществу с лицензией MIT и возможностью коммерческого использования:

  • GigaChat 3 Ultra Preview (702B-A36B) — флагманская instruct-модель.
  • GigaChat 3 Lightning (10B-A1.8B) — компактная MoE-модель для локального и высоконагруженного использования.

Список моделей и чекпоинтов

GigaChat 3 Ultra Preview

GigaChat 3 Lightning


Общая архитектура

Обе модели используют кастомную архитектуру Mixture-of-Experts (MoE) с поддержкой:

  • Multi-head Latent Attention (MLA)
  • Multi-Token Prediction (MTP)

Multi-head Latent Attention (MLA)

Вместо стандартного Multi-head Attention используется Multi-head Latent Attention:

  • Key-Value (KV) кэш сжимается в латентное представление, что:
    • снижает требования к памяти;
    • уменьшает размер KV-кэша;
    • ускоряет обработку длинных контекстов.

Это особенно заметно на больших контекстах (десятки и сотни тысяч токенов) и при кластерном инференсе.

Multi-Token Prediction (MTP)

Обе модели обучены с задачей Multi-Token Prediction (MTP):

  • модель учится предсказывать несколько токенов за один проход;
  • это позволяет использовать спекулятивную/параллельную генерацию и ускорять инференс примерно до +40 %;
  • в типичных конфигурациях (vLLM / SGLang) MTP даёт пропускную способность, сопоставимую с более мелкими dense-моделями.

GigaChat 3 Ultra Preview (702B-A36B)

Краткое описание

GigaChat3 Ultra Preview
— флагманская instruct-модель семейства GigaChat на архитектуре Mixture-of-Experts (MoE).

Ключевые характеристики:

  • около 702B параметров, из них примерно 36B активируются на токен за счёт разрежённой архитектуры;
  • сочетает качество моделей «топ-класса» с практически применимой скоростью инференса;
  • архитектура вдохновлена DeepSeek V3 (MoE + MLA + MTP), но модель обучена с нуля на собственном корпусе;
  • топ-1 на MERA;
  • контекст: до 131k токенов;
  • демонстрирует скорость выше, чем GigaChat 2 Max.

Для дообучения доступен bf16-чекпоинт:

.

Подробнее про архитектуру и обучение будет в статье на Habr (to do).

Бенчмарки

MetricGigaChat 3 UltraGigaChat 2 Max
MERA text0.6830.663
MERA industrial0.645 / 0.824
MERA code0.338
AUTOLOGI_EN_ZERO_SHOT0.68570.6489
GPQA_COT_ZERO_SHOT0.55720.4714
HUMAN_EVAL_PLUS_ZERO_SHOT0.86590.7805
LBPP_PYTHON_ZERO_SHOT0.52470.4753
MMLU_PRO_EN_FIVE_SHOT0.72760.6655
GSM8K_FIVE_SHOT0.95980.9052
MATH_500_FOUR_SHOT0.78400.7160

Как проверить метрики модели


GigaChat 3 Lightning (10B-A1.8B)

Краткое описание

GigaChat3-10B-A1.8B
— компактная MoE-модель следующего поколения.

Ключевые характеристики:

  • 10B общих параметров, 1.8B активных на токен;
  • по качеству достигает уровня лидера open-source своего класса Qwen3-4B;
  • по скорости генерации примерно в 1.5 раза быстрее, сопоставима с Qwen3-1.7B;
  • подходит для локального использования:
    • офлайн-ассистенты;
    • прототипирование и RAG;
    • LLM-классификаторы и high-load RAG-сценарии;
  • хорошая база для высокопроизводительного эмбеддера на CPU (за счёт MoE-архитектуры);
  • поддерживаемый контекст: до 256k токенов.

Base vs Instruct

  • Base (pretrain)
    GigaChat3-10B-A1.8B-base

    Используется для дообучения и кастомных задач.
  • Instruct
    GigaChat3-10B-A1.8B

    Рекомендуется для диалоговых сценариев, ассистентов и выполнения инструкций.

Бенчмарки base

Несмотря на то, что модель имеет 10 миллиардов параметров, ее прямые аналоги это модели размера 3-4 миллиарда, но за счет высокой скорости генерации мы приводит сравнение и с меньшими моделями.

image

Бенчмарки instruct

МетрикаGigaChat 3 LightningQwen3-1.7B-InstructQwen3-4B-Instruct-2507SmolLM3
MMLU_RU_FIVE_SHOT0.68330.48760.59720.4998
RUBQ_ZERO_SHOT0.65160.25570.31700.6363
MMLU_PRO_EN_FIVE_SHOT0.60610.4100.68490.5013
MMLU_EN_FIVE_SHOT0.74030.600.70800.5992
BBH_THREE_SHOT0.45250.33170.71650.4161
SuperGPQA0.27310.20920.37450.2459
MATH_500_FOUR_SHOT0.70000.75200.88800.8020
GPQA_COT_ZERO_SHOT0.35020.26510.53700.3704
LiveCodeBench_ZERO_SHOT0.20310.07940.30460.1656
HUMAN_EVAL_PLUS_ZERO_SHOT0.69510.62800.87800.7012

Как проверить метрики модели


Данные и обучение

Обе модели обучены с нуля на многоязычном и разнообразном корпусе.

Общие свойства корпуса:

  • более 10 языков (включая русский, английский, китайский, арабский, узбекский, казахский и другие);
  • источники:
    • книги и нон-фикшн;
    • академические данные;
    • датасеты по коду и математике;
    • диалоговые и инструктивные датасеты;
  • предобработка:
    • дедупликация;
    • языковая фильтрация;
    • автоматические проверки качества при помощи эвристик и классификаторов.

Существенный вклад в качество дала синтетика:

  • около 5.5T токенов синтетических данных;
  • в корпус входят:
    • вопросы-ответы к текстам;
    • цепочки reverse-prompt для структурирования данных;
    • комментарии и заметки модели внутри текстов;
    • миллионы синтетических задач с решениями по математике и олимпиадному программированию (с автогенерируемыми тестами) на основе PromptCot.

Инференс и деплой

Ultra (702B-A36B)

GigaChat3 Ultra Preview
ориентирована на кластерные и on-prem-сценарии с серьёзной инфраструктурой:

  • поддерживаются популярные inference-движки:
    • vLLM
    • SGLang
    • LMDeploy
    • TensorRT-LLM
    • другие фреймворки;
  • поддерживаются режимы BF16 и FP8 (для FP8 требуется отдельная сборка и настройки GPU);
  • MLA и MTP уменьшают размер KV-кэша и ускоряют генерацию;
  • рекомендуется использовать прокси/gateway-слой для интеграции с внешними сервисами, тулзами и агентными фреймворками.

Для ориентировочной конфигурации можно смотреть гайды по моделям схожего масштаба:

Lightning (10B-A1.8B): производительность

Одно из ключевых преимуществ

GigaChat3-10B-A1.8B
— скорость инференса.

Модель (особенно в MTP-режиме) по пропускной способности сопоставима с гораздо более мелкими dense-моделями, оставаясь при этом заметно сильнее по качеству.

Измерения проводились через vLLM v0.11.0, dtype bfloat16,

batch_size=1
.
Код бенчмарка: https://gist.github.com/ajpqs/ce941aa6f0f48ef36a65cb87a2a1d726.

Модельrequest_throughputoutput_throughputtotal_token_throughputmean_ttft_ms
Qwen3-1.7B
1.689357.308726.09311.824
mtp-GigaChat3-10B-A1.8B-base
1.533333.620678.89426.345
GigaChat3-10B-A1.8B-base
1.077234.363476.91231.053
Qwen3-4B
0.978206.849420.34114.947
Qwen3-8B
0.664140.432285.37516.663
YandexGPT-5-Lite-8B-pretrain
0.641147.305300.26916.711

Несмотря на 10B параметров, по скорости и стоимости инференса модель можно рассматривать как альтернативу dense-моделям на 3–4B параметров, а в MTP-режиме — сравнивать и с меньшими.


Общие свойства моделей

Обе модели:

  • не являются специализированными reasoning-моделями (но поддерживают базовый уровень рассуждений);
  • умеют предсказывать несколько токенов за один шаг (MTP);
  • используют MLA, что уменьшает размер KV-кэша и снижает требования по памяти;
  • обучены с нуля, без инициализации чужими весами;
  • совместимы с:
    • Hugging Face;
    • vLLM / SGLang / LMDeploy;
    • стандартными пайплайнами инференса и дообучения;
  • распространяются по лицензии MIT и могут использоваться в коммерческих продуктах.

Quickstart: GigaChat3-10B-A1.8B-base

1.
transformers

2.
vLLM

Запуск сервера:

Пример запроса:

3.
SGLang

Запуск сервера:

Пример запроса:


Лицензия

Модели распространяются по лицензии MIT. Вы можете использовать их в исследовательских и коммерческих проектах при сохранении текста лицензии.