Поиск

  • wikiweight initialization

    …Правильная инициализация весов (например, Xavier или Kaiming) предотвращает затухание или взрыв градиентов. ## Где встречается - [[665. Как работает инициализация весов в…

  • wikiZero init

    # Zero init ## Определение Инициализация весов нейросети нулями, применяемая для bias-слоёв или residual-связей. В отличие от Xavier/Kaiming, используется…

  • wikiSmall Initialization

    # Small Initialization ## Определение Инициализация весов малыми случайными значениями (например, Normal(0,0.02)), применяемая для эмбеддингов и последних слоёв, чтобы…

  • wikitanh

    # tanh ## Определение Симметричная функция активации, для которой применяется Xavier инициализация весов. ## Где встречается - [[665. Как работает инициализация весов в LLM…

  • wikiOrthogonal initialization

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikiKaiming initialization

    # Kaiming initialization ## Определение Инициализация весов для ReLU‑подобных активаций, предотвращающая затухание градиентов; дисперсия устанавливается как sqrt(2/n_in). ## Где…

  • wikiXavier initialization

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikiPReLU

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikisignal

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikifan_in

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikigain

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikiLeaky ReLU

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikiTied embeddings

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikiSwish

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikiIdentity mapping

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikiRMSNorm

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikiSigmoid

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikigradient noise

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikiReLU

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikigradient norms

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikiSwiGLU

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikiexploding gradients

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikiGELU

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikiresidual connections

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikiBatchNorm

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • answerКак работает инициализация весов в LLM (Xavier, Kaiming, почему важна)?

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)? ## Краткий тезис [[Вики/weight initialization\|Инициализация весов]] — это критический этап…

  • wikipre-training

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • answerЧто такое vanishing / exploding gradients в трансформерах и как их предотвратить?

    Инициализация весов Правильная [[Вики/weight initialization\|инициализация весов]] предотвращает взрыв/затухание на ранних этапах обучения. | Метод | Формула | Для каких слоёв…

  • wikiAdam optimizer

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikiwarmup steps

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikivanishing gradients

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikiAdamW

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikiLayerNorm

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikiWeight Decay

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • answerЧто такое Parameter-Efficient Fine-Tuning (PEFT) и какие методы вы знаете?

    …Основные термины: - **Заморозка ([[Вики/freeze\|freeze]])** – фиксация весов модели, они не участвуют в обратном распространении. - Обучаемые параметры – обычно добавляются как…

  • answerКак работает distributed optimizer в PyTorch (torch.distributed.optim)?

    …После обновления весов своей части, [[Вики/GPU\|GPU]] синхронизирует полные веса со всеми остальными через коллективную операцию [[Вики/AllGather\|AllGather…

  • answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)\|665]] | Что такое Agentic RAG и как он отличается от…

  • answerЧто такое gradient clipping и зачем он нужен при обучении LLM?

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)\|665]] | Mixed precision training и loss scaling | --- ## Навигация (Obsidian) - Предыдущий…

  • answerКак работает обратное распространение (backpropagation) в трансформере?

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)\|665]] | Позиционные кодировки | | [[666. Что такое FP16, BF16, FP8, INT8…

  • answerПочему в формуле attention нужно делить на √d_k? Что будет без масштабирования?

    …обновления весов становятся крайне малыми, [[Вики/Convergence\|сходимость]] ухудшается. --- ## 4. Vanishing gradients и замедление обучения [[Вики/vanishing gradients\|Vanishing gradients…

  • answerКак работает FSDP (Fully Sharded Data Parallel) в PyTorch?

    …Перед вычислением юнита все [[Вики/GPU\|GPU]] выполняют [[Вики/AllGather\|AllGather]] — каждый отправляет свой [[Вики/Partition\|шард]] весов, и каждый…

  • answerКак вы дебажите training instability (loss spikes, divergence)?

    …Для [[Вики/Transformer\|Transformer]] стандарт — инициализация из Xavier или Kaiming с учётом глубины. ### 3.3 Высокий batch size При увеличении…

  • answerЧто такое NCCL и зачем он для tensor parallelism?

    …FSDP + TP (упрощённо):** ```python # Инициализация NCCL torch.distributed.init_process_group(backend='nccl') # Разделение весов линейного слоя class LinearTP(torch…

  • answerЧто такое LoRA для training (инференс уже знаем)?

    …Для модели размером 70B параметров: - [[Вики/Memory\|Память]] для весов: 70B × 2 байта ([[Вики/Quantization\|float16]]) ≈ 140 ГБ. - Градиенты: ещё…

  • answerКак работает LayerNorm и RMSNorm? В чем разница и почему RMSNorm быстрее?

    …Что такое Adam optimizer и как работают его параметры (β1, β2, ε, learning rate)\|659]] | Инициализация весов в трансформерах | --- ## Навигация…

  • answerЧто такое NCCL и почему он критичен для multi-GPU инференса?

    …Полезен при загрузке весов модели на все [[Вики/GPU\|GPU]]. - [[Вики/AllGather\|AllGather]] — каждый [[Вики/GPU\|GPU]] собирает данные со…

  • answerКак работает нормализация перед attention (pre-norm) vs после (post-norm)?

    …не требуется сложная инициализация или [[Вики/warmup steps\|warmup]]. - [[Вики/LayerNorm\|LayerNorm]] перед подуровнем гарантирует, что вход F имеет нулевое…

  • answerКак вы избегаете переобучения при fine-tuning на маленьком датасете?

    …обучаем 3–5 моделей с разными инициализациями или [[Вики/Deterministic seed\|random seed]], усредняем логиты. На маленьких датасетах ensemble может…

  • answerКак работает FlashAttention математически (tiling, recomputation, не материализуя S)?

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)\|665]] | Как работает attention в Transformer (Q, K, V, softmax…

  • answerКак работает tensor parallelism с FP8 в vLLM?

    …В контексте [[Вики/VLLM\|vLLM]] [[Вики/FP8\|FP8]] используется для хранения весов и активаций. Особенности [[Вики/FP8\|FP8]] - Меньшая [[Вики…