superknowa

Форк
0

..
/
7. RLHF Model 
год назад
год назад
год назад
год назад
ReadMe.md

RLHF - Reinforcement Learning using Human Feedback

This directory contains notebooks that can be used to train a reward model, and then fine-tune the LLM using Reinforcement Learning. For a detailed overview of Reward Modeling and RLHF, refer to:

Architecture

RLHF

Notebooks

  1. rewardModelTraining.ipynb : This notebook takes in user preference data as input and trains a model of choice to output scaler reward.
GIF Description
  1. RLHFImplementation.ipynb : This notebook takes a SFT LLM, a reward model and data as input. It then finetunes the LLM using PPO.
GIF Description

References

  1. https://github.com/lvwerra/trl
  2. https://argilla.io/blog/argilla-for-llms/

Использование cookies

Мы используем файлы cookie в соответствии с Политикой конфиденциальности и Политикой использования cookies.

Нажимая кнопку «Принимаю», Вы даете АО «СберТех» согласие на обработку Ваших персональных данных в целях совершенствования нашего веб-сайта и Сервиса GitVerse, а также повышения удобства их использования.

Запретить использование cookies Вы можете самостоятельно в настройках Вашего браузера.