English translation is not available yet. Showing Russian content.

GELU

GELU

Определение

Гладкая функция активации, аппроксимирующая ReLU, определяемая как x * Φ(x), где Φ — функция стандартного нормального распределения. Используется в трансформерах (GPT-2, GPT-3) и свёрточных слоях (Whisper) для обеспечения нелинейности.

Где встречается

Навигация