cross-entropy loss

Определение

Функция потерь, измеряющая различие между предсказанным распределением вероятностей и истинным one-hot распределением. В LLM равна отрицательному логарифмическому правдоподобию правильного токена и является стандартной функцией потерь при обучении.

Где встречается

29. Как fine-tune модель для следования сложным инструкциям
38. Как вы fine-tune модель для функции вызов внешнего API
158. Что такое EAGLE-3 и чем он отличается от стандартного speculative decoding
326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO
351. Как работает model stealing attack и как защититься
355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
365. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)
375. Как вы калибруете retrieval confidence для threshold-based filtering
456. Что такое Medusa (multiple heads) для speculative decoding
513. Что такое weak supervision для разметки данных для fine-tuning и как его применить
539. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
540. Как работает Q-Former в BLIP-2 и зачем он нужен
543. Как работает Whisper архитектурно для ASR (Automatic Speech Recognition)
564. Как работает модели типа Kosmos-2 (grounding объектов на изображении)
596. Как работает model stealing attack (экстракция модели через API)
602. Как работает membership inference атака на LLM
622. Как работает membership inference через logits (разница в вероятностях)
656. Как работает кросс-энтропия (cross-entropy loss) для LLM обучения
657. Что такое KL divergence и где она применяется в LLM (RLHF, distillation)
661. Как работает softmax и почему он вызывает проблемы с градиентами при больших logits
662. Что такое logits и как они связаны с вероятностями temperature scaling
872. Что такое calibration для LLM и как её измерять (ECE)
892. Как работают verifier models для agentic RAG
898. Как работает Toolformer (обучение агента использованию инструментов)
800+ вопросов
48. Настроить click models для implicit feedback
51. Развернуть Mamba-2 локально
56. Реализовать diffusion LLM (PLANNER)
67. Реализовать latent reasoning (∇-Reasoner)
94. Реализовать failure injection для MoE router
273. Реализовать curriculum learning
274. Настроить self-training с псевдо-метками

cross-entropy loss

cross-entropy loss

Определение

Где встречается

Навигация

cross-entropy loss

cross-entropy loss

Определение

Где встречается

Навигация