RLHF with human oversight

Определение

RLHF with human oversight (обучение с подкреплением на основе человеческой обратной связи с участием человека) — это вариант RLHF, в котором процесс сбора предпочтений и оценки ответов модели выполняется непосредственно людьми-аннотаторами. В отличие от автоматизированных методов, таких как Constitutional AI, этот подход требует ручного рейтингования или сравнения сгенерированных ответов, что обеспечивает высокое качество данных, но увеличивает временные и финансовые затраты.

Где встречается

994. Что такое Constitutional AI? Как использовать правила (constitution) для генерации preference данных без людей?

RLHF with human oversight

RLHF with human oversight

Определение

Где встречается

Навигация