中文翻译暂不可用,显示俄语原文。
Swish
Swish
Определение
Гладкая функция активации f(x)=x·sigmoid(x), часто применяемая как компонент SwiGLU в трансформерах.
Где встречается
- 279. Что такое SwiGLU и почему он используется вместо ReLU в современных LLM
- 655. Что такое SwiGLU и почему он лучше ReLU в LLM
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
- 800+ вопросов