Attention maps
Attention maps
Определение
Attention maps (карты внимания) — это визуализация весов внимания (attention weights) в механизме self-attention, показывающая, на какие части входной последовательности модель обращает наибольшее внимание при генерации каждого токена. Они отражают паттерны внимания (attention patterns), которые модель выучила в процессе обучения. В контексте дистилляции знаний студент учится воспроизводить attention maps учителя, что улучшает моделирование долгосрочных зависимостей.