中文翻译暂不可用,显示俄语原文。

Attention

Attention

Определение

Механизм трансформеров, вычисляющий Attention(Q,K,V)=softmax(QK^T/√d_k)V. Позволяет модели фокусироваться на релевантных частях входных данных, используется в multi-head и self-attention.

Где встречается

Навигация