English translation is not available yet. Showing Russian content.
Scaled dot-product attention
Scaled dot-product attention
Определение
Механизм внимания в Transformer, вычисляемый по формуле softmax(QK^T/√d_k)V, где масштабирование на √d_k предотвращает большие значения softmax.
Где встречается
- 632. Как работает Infini-attention (Google, 2024) для бесконечного контекста
- 651. Как работает attention математически Выведите формулу scaled dot-product attention.
- 652. Почему в формуле attention нужно делить на √d_k Что будет без масштабирования
- 800+ вопросов