head_dim
head_dim
Определение
Параметр архитектуры Transformer, определяющий размерность одной головы внимания (например, 64). Используется при настройке FlashAttention.
Параметр архитектуры Transformer, определяющий размерность одной головы внимания (например, 64). Используется при настройке FlashAttention.