Online-Mirror-Descent
Описание
Онлайн‑зеркальный спуск (Online Mirror Descent, OMD) — это разновидность алгоритма оптимизации политики, которую Moonshot AI использует при обучении Kimi‑1.5 для надежного и стабильного обновления модели в рамках reinforcement learning (RL)
Языки
Python
README.md