SFT ModelSFT Model Определение Модель после supervised fine-tuning, используемая как reference policy в RLHF. Где встречается 329. Как обучается reward model для RLHF и как избегать reward hacking Навигация Индекс терминов Индекс разборов Оглавление
SFT Model Определение Модель после supervised fine-tuning, используемая как reference policy в RLHF. Где встречается 329. Как обучается reward model для RLHF и как избегать reward hacking Навигация Индекс терминов Индекс разборов Оглавление