Weight Decay
Weight Decay
Определение
Метод регуляризации, добавляющий штраф за большие веса к функции потерь. Используется для предотвращения переобучения, особенно при fine-tuning на маленьких датасетах.
Где встречается
- 24. Какой размер датасета нужен для fine-tuning
- 25. Как вы оцениваете качество после fine-tuning
- 26. Как вы предотвращаете catastrophic forgetting при fine-tuning
- 34. Какая у вас была самая сложная проблема при fine-tuning и как вы её решили
- 37. Как вы избегаете переобучения при fine-tuning на маленьком датасете
- 40. Как вы объединяете несколько LoRA адаптеров для разных задач
- 357. Как работает membership inference атака на LLM
- 375. Как вы калибруете retrieval confidence для threshold-based filtering
- 463. Что такое activation recomputation (checkpointing) и зачем оно нужно
- 472. Почему gradient accumulation эквивалентен большому batch с точки зрения оптимизации
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 543. Как работает Whisper архитектурно для ASR (Automatic Speech Recognition)
- 599. Что такое adversarial retrieval (атака на retrieval компонент RAG)
- 602. Как работает membership inference атака на LLM
- 622. Как работает membership inference через logits (разница в вероятностях)
- 659. Что такое Adam optimizer и как работают его параметры (β1, β2, ε, learning rate)
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
- 669. Как работает связь между SGD и Adam Почему Adam лучше для LLM
- 672. Что такое residual connections и зачем они нужны в трансформере
- 673. Как работает нормализация перед attention (pre-norm) vs после (post-norm)
- 675. Как работает dropout и зачем он нужен в LLM (regularization)
- 876. Как избежать evaluation overfitting (когда модель учится на тесте)
- 800+ вопросов
- 67. Реализовать latent reasoning (∇-Reasoner)
- 95. Написать runbook для synthetic data collapse
- 223. Fine-tune LoRA для стиля
- 229. Fine-tune embedding под домен
- 273. Реализовать curriculum learning