grpo-qwen-deepcoder

0

Описание

Повтор эксперимента DeepCoder без Кульбака-Лейблера дивергенции (модель получает возможности для исследования)

Языки

Python

Сообщить о нарушении