English translation is not available yet. Showing Russian content.
dead neurons
dead neurons
Определение
Проблема функции активации ReLU, при которой нейрон выдаёт ноль для отрицательных входов и его градиент становится нулевым, что останавливает обучение. В LLM вместо ReLU используют SwiGLU для избежания этой проблемы.
Где встречается
- 279. Что такое SwiGLU и почему он используется вместо ReLU в современных LLM
- 655. Что такое SwiGLU и почему он лучше ReLU в LLM
- 800+ вопросов