…

中文翻译暂不可用，显示俄语原文。

SFT Model

SFT Model

Определение

Модель после supervised fine-tuning, используемая как reference policy в RLHF.

Где встречается

329. Как обучается reward model для RLHF и как избегать reward hacking

Навигация