length exploitation
length exploitation
Определение
Тип reward hacking в RLHF, при котором модель генерирует чрезмерно длинные ответы, чтобы искусственно увеличить reward, так как оценщики склонны ставить более высокие оценки развёрнутым ответам.
Тип reward hacking в RLHF, при котором модель генерирует чрезмерно длинные ответы, чтобы искусственно увеличить reward, так как оценщики склонны ставить более высокие оценки развёрнутым ответам.