Swish
Swish
Определение
Гладкая функция активации f(x)=x·sigmoid(x), часто применяемая как компонент SwiGLU в трансформерах.
Где встречается
- 279. Что такое SwiGLU и почему он используется вместо ReLU в современных LLM
- 655. Что такое SwiGLU и почему он лучше ReLU в LLM
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
- 800+ вопросов