pre-normalization

pre-normalization

Определение

Pre-normalization (pre-norm) — размещение Layer Normalisation перед подуровнями (attention/FFN) в трансформере, а не после. Это улучшает стабильность обучения глубоких сетей, позволяя градиентам течь через identity-соединение.

Где встречается

Навигация