中文翻译暂不可用,显示俄语原文。Value headValue head Определение Дополнительный линейный слой поверх LLM, предсказывающий ожидаемую награду из текущего состояния. Используется в алгоритмах RL (например, PPO) для вычисления advantage. Где встречается 326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически Навигация Индекс терминов Индекс разборов Оглавление
Value head Определение Дополнительный линейный слой поверх LLM, предсказывающий ожидаемую награду из текущего состояния. Используется в алгоритмах RL (например, PPO) для вычисления advantage. Где встречается 326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически Навигация Индекс терминов Индекс разборов Оглавление