grpo-qwen-deepcoder
Описание
Повтор эксперимента DeepCoder без Кульбака-Лейблера дивергенции (модель получает возможности для исследования)
Языки
Python
README.md
Повтор эксперимента DeepCoder без Кульбака-Лейблера дивергенции (модель получает возможности для исследования)
Python