head_dim

Определение

Параметр архитектуры Transformer, определяющий размерность одной головы внимания (например, 64). Используется при настройке FlashAttention.