中文翻译暂不可用,显示俄语原文。

d_model

d_model

Определение

Скрытая размерность представлений в трансформере (например, 4096 для LLaMA-7B), фиксированная в residual stream.

Где встречается

Навигация