English translation is not available yet. Showing Russian content.
LLM distillation
LLM distillation
Определение
Техника сжатия модели, где компактная модель-студент обучается имитировать поведение большой модели-учителя, минимизируя KL-дивергенцию. Позволяет уменьшить задержки и стоимость инференса.
Где встречается
- 7. Как вы уменьшаете latency RAG-системы (время ответа)
- 139. Как вы оцениваете cost-effectiveness LLM-пайплайна
- 162. Что такое Quasar и как quantized verification ускоряет инференс
- 212. Как работает speculative decoding с несколькими draft моделями
- 220. Как вы выбираете между online и batch инференсом для LLM
- 289. Как работает speculative decoding на уровне логитов, а не токенов
- 351. Как работает model stealing attack и как защититься
- 372. Как вы строите двухступенчатый ретривал (fast ANN + slow cross-encoder) в RAG
- 400. Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофиче...
- 440. Как работает speculative decoding Как выбрать draft модель
- 441. EAGLE-3 vs Medusa-2 vs Hydra сравнение speculative decoding методов.
- 504. Как вы оцениваете cost-effectiveness LLM-пайплайна
- 558. Как вы делаете video summarization для RAG (вход — длинное видео, выход — краткое описание)
- 571. Как работают verifier models для agentic RAG и зачем они нужны
- 596. Как работает model stealing attack (экстракция модели через API)
- 657. Что такое KL divergence и где она применяется в LLM (RLHF, distillation)
- 661. Как работает softmax и почему он вызывает проблемы с градиентами при больших logits
- 662. Что такое logits и как они связаны с вероятностями temperature scaling
- 697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)
- 775. Что такое Cost Engineering для LLM-систем
- 780. Как измерять ROI от fine-tuning (окупается ли дообучение более дешёвым инференсом)
- 838. Как speculative decoding ускоряет inference (детально)
- 800+ вопросов
- 57. Настроить recurrent memory для long context