superknowa

This directory contains notebooks that can be used to train a reward model, and then fine-tune the LLM using Reinforcement Learning. For a detailed overview of Reward Modeling and RLHF, refer to:

Architecture

RLHF

Notebooks

rewardModelTraining.ipynb : This notebook takes in user preference data as input and trains a model of choice to output scaler reward.

RLHFImplementation.ipynb : This notebook takes a SFT LLM, a reward model and data as input. It then finetunes the LLM using PPO.

References

Использование cookies

Мы используем файлы cookie в соответствии с Политикой конфиденциальности и Политикой использования cookies.

Нажимая кнопку «Принимаю», Вы даете АО «СберТех» согласие на обработку Ваших персональных данных в целях совершенствования нашего веб-сайта и Сервиса GitVerse, а также повышения удобства их использования.

Запретить использование cookies Вы можете самостоятельно в настройках Вашего браузера.

superknowa

KSKunal SawarkarUpdate README.md8 месяцев назадce87b1

RLHF - Reinforcement Learning using Human Feedback

Architecture

Notebooks

References

Использование cookies