ensemble RM
ensemble RM
Определение
Сокращение от ensemble reward models; подход, использующий несколько reward моделей с усреднением или минимумом их оценок для защиты от reward hacking.
Где встречается
- 329. Как обучается reward model для RLHF и как избегать reward hacking
- 873. Как детектировать reward hacking в RLHF
- 800+ вопросов