中文翻译暂不可用,显示俄语原文。

Hugging Face TRL

Hugging Face TRL

Определение

Библиотека от Hugging Face для reinforcement learning fine-tuning моделей, включающая реализации PPO, DPO, GRPO. Используется в RLHF и онлайн обучении агентов.

Где встречается

Навигация