中文翻译暂不可用,显示俄语原文。
GELU
GELU
Определение
Гладкая функция активации, аппроксимирующая ReLU, определяемая как x * Φ(x), где Φ — функция стандартного нормального распределения. Используется в трансформерах (GPT-2, GPT-3) и свёрточных слоях (Whisper) для обеспечения нелинейности.
Где встречается
- 279. Что такое SwiGLU и почему он используется вместо ReLU в современных LLM
- 363. Как работает Whisper (architecture, tokenization, training) для ASR
- 543. Как работает Whisper архитектурно для ASR (Automatic Speech Recognition)
- 655. Что такое SwiGLU и почему он лучше ReLU в LLM
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
- 800+ вопросов