Step-level training

Step-level training

Определение

Метод обучения, при котором модель получает обратную связь на каждом шаге генерации, а не только на финальном результате; используется в RL/RLHF для пошагового вознаграждения.

Где встречается

Навигация