Feed-Forward Network
Feed-Forward Network
Определение
Feed-Forward Network (FFN) — это компонент архитектуры Transformer, состоящий из двух полносвязных слоёв с нелинейной активацией между ними, применяемый отдельно к каждому токену после механизма самовнимания. В стандартном блоке Transformer FFN располагается вслед за слоем attention. При использовании метода Adapter (Houlsby et al.) между FFN и attention вставляются последовательные bottleneck-слои, что позволяет эффективно дообучать модель с минимальным числом дополнительных параметров.