Scaled dot-product attention

Определение

Механизм внимания в Transformer, вычисляемый по формуле softmax(QK^T/√d_k)V, где масштабирование на √d_k предотвращает большие значения softmax.