中文翻译暂不可用,显示俄语原文。

Value head

Value head

Определение

Дополнительный линейный слой поверх LLM, предсказывающий ожидаемую награду из текущего состояния. Используется в алгоритмах RL (например, PPO) для вычисления advantage.

Где встречается

Навигация