Attention matrix
Attention matrix
Определение
Attention matrix (матрица внимания) — это квадратная матрица, вычисляемая в механизме внимания, где каждый элемент указывает на степень взаимного влияния (важности) между двумя позициями входной последовательности. В моделях-трансформерах она получается из скалярного произведения запросов (queries) и ключей (keys) с последующим softmax. При дистилляции модели-учителя матрица внимания может передаваться ученику как дополнительный сигнал для обучения.