English translation is not available yet. Showing Russian content.gaingain Определение Параметр в инициализации, например gain=√2 для SwiGLU; коэффициент масштабирования дисперсии для функций активации. Где встречается 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна) 800+ вопросов Навигация Индекс терминов Индекс разборов Оглавление
gain Определение Параметр в инициализации, например gain=√2 для SwiGLU; коэффициент масштабирования дисперсии для функций активации. Где встречается 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна) 800+ вопросов Навигация Индекс терминов Индекс разборов Оглавление