Поиск

wikiweight initialization
…Правильная инициализация весов (например, Xavier или Kaiming) предотвращает затухание или взрыв градиентов. ## Где встречается - [[665. Как работает инициализация весов в…
wikiZero init
# Zero init ## Определение Инициализация весов нейросети нулями, применяемая для bias-слоёв или residual-связей. В отличие от Xavier/Kaiming, используется…
wikiSmall Initialization
# Small Initialization ## Определение Инициализация весов малыми случайными значениями (например, Normal(0,0.02)), применяемая для эмбеддингов и последних слоёв, чтобы…
wikitanh
# tanh ## Определение Симметричная функция активации, для которой применяется Xavier инициализация весов. ## Где встречается - [[665. Как работает инициализация весов в LLM…
wikiOrthogonal initialization
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikiKaiming initialization
# Kaiming initialization ## Определение Инициализация весов для ReLU‑подобных активаций, предотвращающая затухание градиентов; дисперсия устанавливается как sqrt(2/n_in). ## Где…
wikiXavier initialization
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikiPReLU
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikisignal
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikifan_in
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikigain
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikiLeaky ReLU
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikiTied embeddings
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikiSwish
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikiIdentity mapping
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikiRMSNorm
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikiSigmoid
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikigradient noise
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikiReLU
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikigradient norms
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikiSwiGLU
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikiexploding gradients
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikiGELU
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikiresidual connections
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikiBatchNorm
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
answerКак работает инициализация весов в LLM (Xavier, Kaiming, почему важна)?
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)? ## Краткий тезис [[Вики/weight initialization\|Инициализация весов]] — это критический этап…
wikipre-training
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
answerЧто такое vanishing / exploding gradients в трансформерах и как их предотвратить?
…Инициализация весов Правильная [[Вики/weight initialization\|инициализация весов]] предотвращает взрыв/затухание на ранних этапах обучения. | Метод | Формула | Для каких слоёв…
wikiAdam optimizer
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikiwarmup steps
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikivanishing gradients
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikiAdamW
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikiLayerNorm
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikiWeight Decay
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
answerЧто такое Parameter-Efficient Fine-Tuning (PEFT) и какие методы вы знаете?
…Основные термины: - **Заморозка ([[Вики/freeze\|freeze]])** – фиксация весов модели, они не участвуют в обратном распространении. - Обучаемые параметры – обычно добавляются как…
answerКак работает distributed optimizer в PyTorch (torch.distributed.optim)?
…После обновления весов своей части, [[Вики/GPU\|GPU]] синхронизирует полные веса со всеми остальными через коллективную операцию [[Вики/AllGather\|AllGather…
answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)\|665]] | Что такое Agentic RAG и как он отличается от…
answerЧто такое gradient clipping и зачем он нужен при обучении LLM?
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)\|665]] | Mixed precision training и loss scaling | --- ## Навигация (Obsidian) - Предыдущий…
answerКак работает обратное распространение (backpropagation) в трансформере?
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)\|665]] | Позиционные кодировки | | [[666. Что такое FP16, BF16, FP8, INT8…
answerПочему в формуле attention нужно делить на √d_k? Что будет без масштабирования?
…обновления весов становятся крайне малыми, [[Вики/Convergence\|сходимость]] ухудшается. --- ## 4. Vanishing gradients и замедление обучения [[Вики/vanishing gradients\|Vanishing gradients…
answerКак работает FSDP (Fully Sharded Data Parallel) в PyTorch?
…Перед вычислением юнита все [[Вики/GPU\|GPU]] выполняют [[Вики/AllGather\|AllGather]] — каждый отправляет свой [[Вики/Partition\|шард]] весов, и каждый…
answerКак вы дебажите training instability (loss spikes, divergence)?
…Для [[Вики/Transformer\|Transformer]] стандарт — инициализация из Xavier или Kaiming с учётом глубины. ### 3.3 Высокий batch size При увеличении…
answerЧто такое NCCL и зачем он для tensor parallelism?
…FSDP + TP (упрощённо):** ```python # Инициализация NCCL torch.distributed.init_process_group(backend='nccl') # Разделение весов линейного слоя class LinearTP(torch…
answerЧто такое LoRA для training (инференс уже знаем)?
…Для модели размером 70B параметров: - [[Вики/Memory\|Память]] для весов: 70B × 2 байта ([[Вики/Quantization\|float16]]) ≈ 140 ГБ. - Градиенты: ещё…
answerКак работает LayerNorm и RMSNorm? В чем разница и почему RMSNorm быстрее?
…Что такое Adam optimizer и как работают его параметры (β1, β2, ε, learning rate)\|659]] | Инициализация весов в трансформерах | --- ## Навигация…
answerЧто такое NCCL и почему он критичен для multi-GPU инференса?
…Полезен при загрузке весов модели на все [[Вики/GPU\|GPU]]. - [[Вики/AllGather\|AllGather]] — каждый [[Вики/GPU\|GPU]] собирает данные со…
answerКак работает нормализация перед attention (pre-norm) vs после (post-norm)?
…не требуется сложная инициализация или [[Вики/warmup steps\|warmup]]. - [[Вики/LayerNorm\|LayerNorm]] перед подуровнем гарантирует, что вход F имеет нулевое…
answerКак вы избегаете переобучения при fine-tuning на маленьком датасете?
…обучаем 3–5 моделей с разными инициализациями или [[Вики/Deterministic seed\|random seed]], усредняем логиты. На маленьких датасетах ensemble может…
answerКак работает FlashAttention математически (tiling, recomputation, не материализуя S)?
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)\|665]] | Как работает attention в Transformer (Q, K, V, softmax…
answerКак работает tensor parallelism с FP8 в vLLM?
…В контексте [[Вики/VLLM\|vLLM]] [[Вики/FP8\|FP8]] используется для хранения весов и активаций. Особенности [[Вики/FP8\|FP8]] - Меньшая [[Вики…