Comparison Dataset

Определение

Датасет, содержащий тройки (prompt, ответ_A, ответ_B, метка), используемый для обучения модели вознаграждения (reward model) на основе человеческих предпочтений.

Где встречается

329. Как обучается reward model для RLHF и как избегать reward hacking

Comparison Dataset

Comparison Dataset

Определение

Где встречается

Навигация