…

SFT Model

SFT Model

Определение

Модель после supervised fine-tuning, используемая как reference policy в RLHF.

Где встречается

329. Как обучается reward model для RLHF и как избегать reward hacking

Навигация