Multi-Head Attention

Multi-Head Attention

Определение

Ключевой компонент трансформера, выполняющий операцию внимания параллельно в нескольких головах с разными проекциями; каждая голова учится фокусироваться на различных аспектах входных данных.

Где встречается

Навигация