hidden representations
hidden representations
Определение
Внутренние векторы активаций слоёв модели, используемые в методах speculative decoding (EAGLE-3), интервенциях (ReFT) и тест-тайм компьютинге.
Где встречается
- 151. Что такое тест-тайм компьютинг (Test-Time Compute) и чем он отличается от обычного инференса
- 153. Что такое ∇-Reasoner (nabla-reasoner) и как он использует градиентный спуск на этапе теста
- 158. Что такое EAGLE-3 и чем он отличается от стандартного speculative decoding
- 164. Какие trade-offs между разными архитектурами speculative decoding
- 195. Как вы проверяете, что модель действительно использует структуру представления, а не игнорирует ее
- 212. Как работает speculative decoding с несколькими draft моделями
- 295. Что такое logit lens и как он помогает понимать внутренние представления
- 440. Как работает speculative decoding Как выбрать draft модель
- 441. EAGLE-3 vs Medusa-2 vs Hydra сравнение speculative decoding методов.
- 484. Что такое ReFT (Representation Fine-Tuning) и когда он лучше LoRA
- 638. Как работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)
- 674. Что такое logit lens (интерпретация скрытых состояний)
- 800+ вопросов
- 67. Реализовать latent reasoning (∇-Reasoner)