tool-star

0

Описание

Повторяем эксперимент с RLVR обучением модели тулингу (одновременному вызову двух инструментов с помощью наград)

Языки

Python

Сообщить о нарушении
9 дней назад
9 дней назад
9 дней назад
README.md