中文翻译暂不可用,显示俄语原文。

GELU

GELU

Определение

Гладкая функция активации, аппроксимирующая ReLU, определяемая как x * Φ(x), где Φ — функция стандартного нормального распределения. Используется в трансформерах (GPT-2, GPT-3) и свёрточных слоях (Whisper) для обеспечения нелинейности.

Где встречается

Навигация