中文翻译暂不可用,显示俄语原文。

post-norm

post-norm

Определение

Схема трансформера, в которой LayerNorm применяется после сложения residual (output = LayerNorm(x + F(x))). Оригинальный вариант, склонный к затуханию градиентов.

Где встречается

Навигация