d_model

d_model

Определение

Скрытая размерность представлений в трансформере (например, 4096 для LLaMA-7B), фиксированная в residual stream.

Где встречается

Навигация