English translation is not available yet. Showing Russian content.
baseline
baseline
Определение
Эталонная модель или метрика, с которой сравниваются результаты после изменений, используется для оценки отклонений, win rate и детекции коллапса.
Где встречается
- 69. Как вы организуете CICD для RAG-пайплайна
- 71. Как вы тестируете RAG-систему на новых документах без реальных пользователей
- 140. Как вы проверяете, что новая версия модели не сломала старые кейсы
- 176. Какие инструменты для агентской эвалюации вы используете
- 272. Как вы проверяете качество parsing документов (PDF, DOCX) в production
- 289. Как работает speculative decoding на уровне логитов, а не токенов
- 326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
- 328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен
- 332. Как работает KL penalty в RLHF и как подобрать коэффициент
- 335. Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)
- 337. Как вы проверяете, что RLHF не сломал базовые способности модели
- 357. Как работает membership inference атака на LLM
- 385. Как вы автоматизируете rollback при деградации качества
- 456. Что такое Medusa (multiple heads) для speculative decoding
- 505. Как вы проверяете, что новая версия модели не сломала старые кейсы
- 540. Как работает Q-Former в BLIP-2 и зачем он нужен
- 579. Как работает agent replay для улучшения качества (анализ failed траекторий)
- 748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)
- 773. Как измерять «коэффициент полезного делегирования» (сколько задач решено правильно)
- 790. Что такое «canary testing» для агентов (10% трафика на новую версию)
- 797. Как тестировать промпты (prompt regression testing)
- 803. Как делать canary deployment для промптов (5% трафика)
- Практика
- 800+ вопросов
- 48. Настроить click models для implicit feedback
- 64. Настроить self-consistency для CoT
- 67. Реализовать latent reasoning (∇-Reasoner)
- 72. Настроить capacity planning для GPU кластера
- 77. Реализовать cost-aware routing
- 84. Реализовать conversational repair
- 91. Написать postmortem для retrieval degradation
- 92. Профилировать GPU utilization падение
- 95. Написать runbook для synthetic data collapse
- 99. Написать postmortem для cache stampede
- 110. Реализовать quality gates для агента
- 111. Настроить drift detection для агента
- 127. Реализовать outsourcing другому LLM
- 144. Настроить anomaly detection по cost
- 153. Настроить chaos testing
- 154. Протестировать multi-turn диалоги