Feed-Forward Network

Feed-Forward Network

Определение

Feed-Forward Network (FFN) — это компонент архитектуры Transformer, состоящий из двух полносвязных слоёв с нелинейной активацией между ними, применяемый отдельно к каждому токену после механизма самовнимания. В стандартном блоке Transformer FFN располагается вслед за слоем attention. При использовании метода Adapter (Houlsby et al.) между FFN и attention вставляются последовательные bottleneck-слои, что позволяет эффективно дообучать модель с минимальным числом дополнительных параметров.

Где встречается

Навигация