post-norm

post-norm

Определение

Схема трансформера, в которой LayerNorm применяется после сложения residual (output = LayerNorm(x + F(x))). Оригинальный вариант, склонный к затуханию градиентов.

Где встречается

Навигация