Value headValue head Определение Дополнительный линейный слой поверх LLM, предсказывающий ожидаемую награду из текущего состояния. Используется в алгоритмах RL (например, PPO) для вычисления advantage. Где встречается 326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически Навигация Индекс терминов Индекс разборов Оглавление
Value head Определение Дополнительный линейный слой поверх LLM, предсказывающий ожидаемую награду из текущего состояния. Используется в алгоритмах RL (например, PPO) для вычисления advantage. Где встречается 326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически Навигация Индекс терминов Индекс разборов Оглавление