SwiGLU

SwiGLU

Определение

Функция активации, комбинирующая Swish и гейтинг (SwiGLU(x) = Swish(Wx+b) ⊙ (Vx+c)), используемая в современных LLM как замена ReLU.

Где встречается

Навигация