中文翻译暂不可用,显示俄语原文。
head_dim
head_dim
Определение
Параметр архитектуры Transformer, определяющий размерность одной головы внимания (например, 64). Используется при настройке FlashAttention.
中文翻译暂不可用,显示俄语原文。
Параметр архитектуры Transformer, определяющий размерность одной головы внимания (например, 64). Используется при настройке FlashAttention.