SwiGLU
SwiGLU
Определение
Функция активации, комбинирующая Swish и гейтинг (SwiGLU(x) = Swish(Wx+b) ⊙ (Vx+c)), используемая в современных LLM как замена ReLU.
Где встречается
- 279. Что такое SwiGLU и почему он используется вместо ReLU в современных LLM
- 655. Что такое SwiGLU и почему он лучше ReLU в LLM
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
- 677. Как работает forward pass LLM от токена до вероятности следующего токена
- 800+ вопросов