中文翻译暂不可用,显示俄语原文。
∇-Reasoner
∇-Reasoner
Определение
Метод, переносящий градиентный спуск с этапа обучения на этап инференса: оптимизация скрытых представлений токенов для улучшения сложных рассуждений во время генерации.
Где встречается
- 153. Что такое ∇-Reasoner (nabla-reasoner) и как он использует градиентный спуск на этапе теста
- 290. Что такое Chain-of-Thought без токенов (latent CoT) и как это реализовано
- 638. Как работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)
- Практика
- 800+ вопросов
- 67. Реализовать latent reasoning (∇-Reasoner)