Reward

Определение

ReST лучше всего применять для задач с чётким reward, где можно легко фильтровать генерации.