Поиск
- wikiweight initialization
…Правильная инициализация весов (например, Xavier или Kaiming) предотвращает затухание или взрыв градиентов. ## Где встречается - [[665. Как работает инициализация весов в…
- wikiZero init
# Zero init ## Определение Инициализация весов нейросети нулями, применяемая для bias-слоёв или residual-связей. В отличие от Xavier/Kaiming, используется…
- wikiSmall Initialization
# Small Initialization ## Определение Инициализация весов малыми случайными значениями (например, Normal(0,0.02)), применяемая для эмбеддингов и последних слоёв, чтобы…
- wikitanh
# tanh ## Определение Симметричная функция активации, для которой применяется Xavier инициализация весов. ## Где встречается - [[665. Как работает инициализация весов в LLM…
- wikiOrthogonal initialization
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikiKaiming initialization
# Kaiming initialization ## Определение Инициализация весов для ReLU‑подобных активаций, предотвращающая затухание градиентов; дисперсия устанавливается как sqrt(2/n_in). ## Где…
- wikiXavier initialization
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikiPReLU
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikisignal
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikifan_in
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikigain
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikiLeaky ReLU
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikiTied embeddings
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikiSwish
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikiIdentity mapping
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikiRMSNorm
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikiSigmoid
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikigradient noise
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikiReLU
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikigradient norms
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikiSwiGLU
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikiexploding gradients
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikiGELU
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikiresidual connections
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikiBatchNorm
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- answerКак работает инициализация весов в LLM (Xavier, Kaiming, почему важна)?
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)? ## Краткий тезис [[Вики/weight initialization\|Инициализация весов]] — это критический этап…
- wikipre-training
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- answerЧто такое vanishing / exploding gradients в трансформерах и как их предотвратить?
…Инициализация весов Правильная [[Вики/weight initialization\|инициализация весов]] предотвращает взрыв/затухание на ранних этапах обучения. | Метод | Формула | Для каких слоёв…
- wikiAdam optimizer
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikiwarmup steps
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikivanishing gradients
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikiAdamW
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikiLayerNorm
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikiWeight Decay
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- answerЧто такое Parameter-Efficient Fine-Tuning (PEFT) и какие методы вы знаете?
…Основные термины: - **Заморозка ([[Вики/freeze\|freeze]])** – фиксация весов модели, они не участвуют в обратном распространении. - Обучаемые параметры – обычно добавляются как…
- answerКак работает distributed optimizer в PyTorch (torch.distributed.optim)?
…После обновления весов своей части, [[Вики/GPU\|GPU]] синхронизирует полные веса со всеми остальными через коллективную операцию [[Вики/AllGather\|AllGather…
- answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)\|665]] | Что такое Agentic RAG и как он отличается от…
- answerЧто такое gradient clipping и зачем он нужен при обучении LLM?
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)\|665]] | Mixed precision training и loss scaling | --- ## Навигация (Obsidian) - Предыдущий…
- answerКак работает обратное распространение (backpropagation) в трансформере?
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)\|665]] | Позиционные кодировки | | [[666. Что такое FP16, BF16, FP8, INT8…
- answerПочему в формуле attention нужно делить на √d_k? Что будет без масштабирования?
…обновления весов становятся крайне малыми, [[Вики/Convergence\|сходимость]] ухудшается. --- ## 4. Vanishing gradients и замедление обучения [[Вики/vanishing gradients\|Vanishing gradients…
- answerКак работает FSDP (Fully Sharded Data Parallel) в PyTorch?
…Перед вычислением юнита все [[Вики/GPU\|GPU]] выполняют [[Вики/AllGather\|AllGather]] — каждый отправляет свой [[Вики/Partition\|шард]] весов, и каждый…
- answerКак вы дебажите training instability (loss spikes, divergence)?
…Для [[Вики/Transformer\|Transformer]] стандарт — инициализация из Xavier или Kaiming с учётом глубины. ### 3.3 Высокий batch size При увеличении…
- answerЧто такое NCCL и зачем он для tensor parallelism?
…FSDP + TP (упрощённо):** ```python # Инициализация NCCL torch.distributed.init_process_group(backend='nccl') # Разделение весов линейного слоя class LinearTP(torch…
- answerЧто такое LoRA для training (инференс уже знаем)?
…Для модели размером 70B параметров: - [[Вики/Memory\|Память]] для весов: 70B × 2 байта ([[Вики/Quantization\|float16]]) ≈ 140 ГБ. - Градиенты: ещё…
- answerКак работает LayerNorm и RMSNorm? В чем разница и почему RMSNorm быстрее?
…Что такое Adam optimizer и как работают его параметры (β1, β2, ε, learning rate)\|659]] | Инициализация весов в трансформерах | --- ## Навигация…
- answerЧто такое NCCL и почему он критичен для multi-GPU инференса?
…Полезен при загрузке весов модели на все [[Вики/GPU\|GPU]]. - [[Вики/AllGather\|AllGather]] — каждый [[Вики/GPU\|GPU]] собирает данные со…
- answerКак работает нормализация перед attention (pre-norm) vs после (post-norm)?
…не требуется сложная инициализация или [[Вики/warmup steps\|warmup]]. - [[Вики/LayerNorm\|LayerNorm]] перед подуровнем гарантирует, что вход F имеет нулевое…
- answerКак вы избегаете переобучения при fine-tuning на маленьком датасете?
…обучаем 3–5 моделей с разными инициализациями или [[Вики/Deterministic seed\|random seed]], усредняем логиты. На маленьких датасетах ensemble может…
- answerКак работает FlashAttention математически (tiling, recomputation, не материализуя S)?
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)\|665]] | Как работает attention в Transformer (Q, K, V, softmax…
- answerКак работает tensor parallelism с FP8 в vLLM?
…В контексте [[Вики/VLLM\|vLLM]] [[Вики/FP8\|FP8]] используется для хранения весов и активаций. Особенности [[Вики/FP8\|FP8]] - Меньшая [[Вики…