Knowledge Portal

aivaro.ru

  • Contents
  • Questions
  • Practice
  • Wiki
  • Tests
  • Search
✈Telegram @AetSeidhe
RUEN中文
…
Contents/Wiki/SFT Model

English translation is not available yet. Showing Russian content.

SFT Model

SFT Model

Определение

Модель после supervised fine-tuning, используемая как reference policy в RLHF.

Где встречается

  • 329. Как обучается reward model для RLHF и как избегать reward hacking

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминfine-tuning

Ссылки

  • Как обучается reward model для RLHF и как избегать reward hacking?

Обратные ссылки (1)

  • Индекс терминов