Self-attention
Self-attention
Определение
Self-attention (самовнимание) — механизм, который вычисляет представление каждого элемента последовательности как взвешенную сумму всех элементов, где веса определяются степенью взаимосвязи (attention scores) между элементами. Механизм позволяет модели учитывать контекст любой длины без ограничений, свойственных рекуррентным сетям. В основе Transformer-XL лежит базовое self-attention, расширенное за счёт рекуррентного соединения сегментов.
Где встречается
- 922. Language Model и chain rule
- 930. Размер словаря токенизатора
- 934. RNN, LSTM, GRU и трансформеры
- 932. Attention и padding mask
- 946. Transformer-XL и recurrence