clipping
clipping
Определение
Техника ограничения нормы градиента или отношения вероятностей политик для предотвращения взрыва градиентов и стабилизации обучения (например, gradient clipping в трансформерах или clip в PPO).
Где встречается
- 328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен
- 339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO
- 356. Что такое data poisoning атака на fine-tuning и как защититься
- 468. Почему small batch size (32) ухудшает training стабильность
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 620. Что такое differential privacy для LLM и как она работает
- 659. Что такое Adam optimizer и как работают его параметры (β1, β2, ε, learning rate)
- 661. Как работает softmax и почему он вызывает проблемы с градиентами при больших logits
- 664. Что такое vanishing exploding gradients в трансформерах и как их предотвратить
- 673. Как работает нормализация перед attention (pre-norm) vs после (post-norm)
- 680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)
- 885. Как происходит PII leakage через LLM и как защититься
- 800+ вопросов
- 56. Реализовать diffusion LLM (PLANNER)
- 60. Настроить гибрид (Mamba + Attention)
- 67. Реализовать latent reasoning (∇-Reasoner)