Value head

Определение

Дополнительный линейный слой поверх LLM, предсказывающий ожидаемую награду из текущего состояния. Используется в алгоритмах RL (например, PPO) для вычисления advantage.

Где встречается

326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически

Value head

Value head

Определение

Где встречается

Навигация