中文翻译暂不可用,显示俄语原文。
Step-level training
Step-level training
Определение
Метод обучения, при котором модель получает обратную связь на каждом шаге генерации, а не только на финальном результате; используется в RL/RLHF для пошагового вознаграждения.
中文翻译暂不可用,显示俄语原文。
Метод обучения, при котором модель получает обратную связь на каждом шаге генерации, а не только на финальном результате; используется в RL/RLHF для пошагового вознаграждения.