English translation is not available yet. Showing Russian content.
Step-level training
Step-level training
Определение
Метод обучения, при котором модель получает обратную связь на каждом шаге генерации, а не только на финальном результате; используется в RL/RLHF для пошагового вознаграждения.