English translation is not available yet. Showing Russian content.

Attention

Attention

Определение

Механизм трансформеров, вычисляющий Attention(Q,K,V)=softmax(QK^T/√d_k)V. Позволяет модели фокусироваться на релевантных частях входных данных, используется в multi-head и self-attention.

Где встречается

Навигация