length exploitation

length exploitation

Определение

Тип reward hacking в RLHF, при котором модель генерирует чрезмерно длинные ответы, чтобы искусственно увеличить reward, так как оценщики склонны ставить более высокие оценки развёрнутым ответам.

Где встречается

Навигация