dead neurons

dead neurons

Определение

Проблема функции активации ReLU, при которой нейрон выдаёт ноль для отрицательных входов и его градиент становится нулевым, что останавливает обучение. В LLM вместо ReLU используют SwiGLU для избежания этой проблемы.

Где встречается

Навигация