English translation is not available yet. Showing Russian content.
head_dim
head_dim
Определение
Параметр архитектуры Transformer, определяющий размерность одной головы внимания (например, 64). Используется при настройке FlashAttention.
English translation is not available yet. Showing Russian content.
Параметр архитектуры Transformer, определяющий размерность одной головы внимания (например, 64). Используется при настройке FlashAttention.