Reward
Reward
Определение
ReST лучше всего применять для задач с чётким reward, где можно легко фильтровать генерации.
Где встречается
- 153. Что такое ∇-Reasoner (nabla-reasoner) и как он использует градиентный спуск на этапе теста
- 800+ вопросов
ReST лучше всего применять для задач с чётким reward, где можно легко фильтровать генерации.