Online-Mirror-Descent

0

Описание

Онлайн‑зеркальный спуск (Online Mirror Descent, OMD) — это разновидность алгоритма оптимизации политики, которую Moonshot AI использует при обучении Kimi‑1.5 для надежного и стабильного обновления модели в рамках reinforcement learning (RL)

Языки

Python

Сообщить о нарушении
README.md

Использование cookies

Мы используем файлы cookie в соответствии с Политикой конфиденциальности и Политикой использования cookies.

Нажимая кнопку «Принимаю», Вы даете АО «СберТех» согласие на обработку Ваших персональных данных в целях совершенствования нашего веб-сайта и Сервиса GitVerse, а также повышения удобства их использования.

Запретить использование cookies Вы можете самостоятельно в настройках Вашего браузера.