d_model
d_model
Определение
Скрытая размерность представлений в трансформере (например, 4096 для LLaMA-7B), фиксированная в residual stream.
Где встречается
- 456. Что такое Medusa (multiple heads) для speculative decoding
- 676. Что такое residual stream и как он связан с информационным потоком в трансформере
- 677. Как работает forward pass LLM от токена до вероятности следующего токена
- 800+ вопросов
- 60. Настроить гибрид (Mamba + Attention)