Поиск
- wikidivergence
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[800+ вопросов|800…
- wikiActivation Statistics
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] ## Навигация - [[00. Индекс…
- wikioverflow
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[800+ вопросов|800…
- wikiGradient Pulse
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] ## Навигация - [[00. Индекс…
- wikiInfinity
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[800+ вопросов|800…
- wikiLinear Decay
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] ## Навигация - [[00. Индекс…
- wikiSoftmax Overflow
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] ## Навигация - [[00. Индекс…
- wikiPad Tokens
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] ## Навигация - [[00. Индекс…
- wikiLearning Rate Schedule
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] ## Навигация - [[00. Индекс…
- wikiLogit Clipping
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[622. Как работает…
- wikigradient scaling
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[666. Что такое…
- wikiTensorBoard
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[56. Реализовать diffusion…
- wikigradient noise
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[665. Как работает…
- wikigradient norms
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[665. Как работает…
- wikiCosine Decay
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[659. Что такое…
- wikipre-training
…Почему tokenizer влияет на стоимость training|475. Почему tokenizer влияет на стоимость training]] - [[485. Как вы дебажите training instability (loss…
- wikiReinforcement Learning
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[723. Как моделировать…
- wikiexploding gradients
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[664. Что такое…
- wikiKaiming initialization
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[661. Как работает…
- wikiXavier initialization
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[661. Как работает…
- wikigradient accumulation
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[669. Как работает…
- wikiwarmup steps
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[659. Что такое…
- wikiMegatron-LM
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[650. Что такое…
- wikilearning rate
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[669. Как работает…
- wikiAdamW
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[539. Что такое…
- wikiclipping
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[620. Что такое…
- wikimixed precision training
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[666. Что такое…
- wikiмаскировка
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[683. Что такое…
- answerКак вы дебажите training instability (loss spikes, divergence)?
…Как вы дебажите training instability (loss spikes, divergence)? ## Краткий тезис Training instability — это ситуация, когда loss ведёт себя непредсказуемо: резкие…
- wikiPosition Encoding
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[553. Что такое…
- wikiDistilGPT2
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[507. Что такое…
- wikilogits
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[507. Что такое…
- wikiCheckpoints
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[524. Как вы…
- wikiTensor parallelism
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[642. Как вы…
- wikiProximal Policy Optimization
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[489. Что такое…
- wikiTransformer
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[536. Как работает…
- wikiWeight Decay
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[543. Как работает…
- wikiWeights & Biases
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[578. Что такое…
- wikiPyTorch
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[537. Что такое…
- wikiMLflow
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[502. Как вы…
- wikiFlashAttention
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[629. Как работает…
- wikibatch size
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[504. Как вы…
- answerПочему tokenizer влияет на стоимость training?
…Как вы дебажите training instability (loss spikes, divergence)\|485]] | Что такое KV-cache и как он влияет на стоимость? | --- ## Навигация…
- answerЧто такое LoRA для training (инференс уже знаем)?
…Как вы дебажите training instability (loss spikes, divergence)\|485]] | LoRA для мультизадачности | | [[486. Почему LLM-as-Judge может быть biased…
- answerКак работает QLoRA (Quantized LoRA) для training?
…Как вы дебажите training instability (loss spikes, divergence)\|485]] | Как объединить LoRA-адаптеры с квантизованной моделью? | --- ## Навигация (Obsidian) - Предыдущий: [[481…
- answerКак работает packing для variable-length sequences в FSDP?
…Как вы дебажите training instability (loss spikes, divergence)\|485]] | Как работает attention mask в transformer-моделях? | | [[490. Как вы проектируете…
- answerЧто такое ReFT (Representation Fine-Tuning) и когда он лучше LoRA?
…Как вы дебажите training instability (loss spikes, divergence)\|485]] | Какие существуют стратегии fine-tuning для LLM? | | [[486. Почему LLM-as…
- answerКак работает selective activation recomputation?
…Как вы дебажите training instability (loss spikes, divergence)\|485]] | Оптимизация памяти при инференсе LLM | | [[490. Как вы проектируете бенчмарк для…
- answerКак работает DoRA (Weight-Decomposed LoRA) и чем лучше LoRA?
…Как вы дебажите training instability (loss spikes, divergence)\|485]] | Какие ещё методы PEFT существуют (IA3, AdaLoRA)? | | [[486. Почему LLM-as…
- answerПочему LLM-as-Judge может быть biased? Назовите 3 основных bias и как их детектировать.
…Как вы дебажите training instability (loss spikes, divergence)\|485]] - Следующий: [[487. Что такое calibration ошибок модели и как ее измерять…