ReLU
ReLU
Определение
Функция активации f(x)=max(0,x), простая и эффективная, но страдает от проблемы мёртвых нейронов (dead neurons) при отрицательных входах.
Где встречается
- 279. Что такое SwiGLU и почему он используется вместо ReLU в современных LLM
- 655. Что такое SwiGLU и почему он лучше ReLU в LLM
- 661. Как работает softmax и почему он вызывает проблемы с градиентами при больших logits
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
- 800+ вопросов