English translation is not available yet. Showing Russian content.
cross-entropy loss
cross-entropy loss
Определение
Функция потерь, измеряющая различие между предсказанным распределением вероятностей и истинным one-hot распределением. В LLM равна отрицательному логарифмическому правдоподобию правильного токена и является стандартной функцией потерь при обучении.
Где встречается
- 29. Как fine-tune модель для следования сложным инструкциям
- 38. Как вы fine-tune модель для функции вызов внешнего API
- 158. Что такое EAGLE-3 и чем он отличается от стандартного speculative decoding
- 326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
- 339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO
- 351. Как работает model stealing attack и как защититься
- 355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
- 361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
- 365. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)
- 375. Как вы калибруете retrieval confidence для threshold-based filtering
- 456. Что такое Medusa (multiple heads) для speculative decoding
- 513. Что такое weak supervision для разметки данных для fine-tuning и как его применить
- 539. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
- 540. Как работает Q-Former в BLIP-2 и зачем он нужен
- 543. Как работает Whisper архитектурно для ASR (Automatic Speech Recognition)
- 564. Как работает модели типа Kosmos-2 (grounding объектов на изображении)
- 596. Как работает model stealing attack (экстракция модели через API)
- 602. Как работает membership inference атака на LLM
- 622. Как работает membership inference через logits (разница в вероятностях)
- 656. Как работает кросс-энтропия (cross-entropy loss) для LLM обучения
- 657. Что такое KL divergence и где она применяется в LLM (RLHF, distillation)
- 661. Как работает softmax и почему он вызывает проблемы с градиентами при больших logits
- 662. Что такое logits и как они связаны с вероятностями temperature scaling
- 872. Что такое calibration для LLM и как её измерять (ECE)
- 892. Как работают verifier models для agentic RAG
- 898. Как работает Toolformer (обучение агента использованию инструментов)
- 800+ вопросов
- 48. Настроить click models для implicit feedback
- 51. Развернуть Mamba-2 локально
- 56. Реализовать diffusion LLM (PLANNER)
- 67. Реализовать latent reasoning (∇-Reasoner)
- 94. Реализовать failure injection для MoE router
- 273. Реализовать curriculum learning
- 274. Настроить self-training с псевдо-метками