clipping

Определение

Техника ограничения нормы градиента или отношения вероятностей политик для предотвращения взрыва градиентов и стабилизации обучения (например, gradient clipping в трансформерах или clip в PPO).

Где встречается

328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен
339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO
356. Что такое data poisoning атака на fine-tuning и как защититься
468. Почему small batch size (32) ухудшает training стабильность
485. Как вы дебажите training instability (loss spikes, divergence)
620. Что такое differential privacy для LLM и как она работает
659. Что такое Adam optimizer и как работают его параметры (β1, β2, ε, learning rate)
661. Как работает softmax и почему он вызывает проблемы с градиентами при больших logits
664. Что такое vanishing exploding gradients в трансформерах и как их предотвратить
673. Как работает нормализация перед attention (pre-norm) vs после (post-norm)
680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)
885. Как происходит PII leakage через LLM и как защититься
800+ вопросов
56. Реализовать diffusion LLM (PLANNER)
60. Настроить гибрид (Mamba + Attention)
67. Реализовать latent reasoning (∇-Reasoner)

clipping

clipping

Определение

Где встречается

Навигация