baseline

Определение

Эталонная модель или метрика, с которой сравниваются результаты после изменений, используется для оценки отклонений, win rate и детекции коллапса.

Где встречается

69. Как вы организуете CICD для RAG-пайплайна
71. Как вы тестируете RAG-систему на новых документах без реальных пользователей
140. Как вы проверяете, что новая версия модели не сломала старые кейсы
176. Какие инструменты для агентской эвалюации вы используете
272. Как вы проверяете качество parsing документов (PDF, DOCX) в production
289. Как работает speculative decoding на уровне логитов, а не токенов
326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен
332. Как работает KL penalty в RLHF и как подобрать коэффициент
335. Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)
337. Как вы проверяете, что RLHF не сломал базовые способности модели
357. Как работает membership inference атака на LLM
385. Как вы автоматизируете rollback при деградации качества
456. Что такое Medusa (multiple heads) для speculative decoding
505. Как вы проверяете, что новая версия модели не сломала старые кейсы
540. Как работает Q-Former в BLIP-2 и зачем он нужен
579. Как работает agent replay для улучшения качества (анализ failed траекторий)
748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)
773. Как измерять «коэффициент полезного делегирования» (сколько задач решено правильно)
790. Что такое «canary testing» для агентов (10% трафика на новую версию)
797. Как тестировать промпты (prompt regression testing)
803. Как делать canary deployment для промптов (5% трафика)
Практика
800+ вопросов
48. Настроить click models для implicit feedback
64. Настроить self-consistency для CoT
67. Реализовать latent reasoning (∇-Reasoner)
72. Настроить capacity planning для GPU кластера
77. Реализовать cost-aware routing
84. Реализовать conversational repair
91. Написать postmortem для retrieval degradation
92. Профилировать GPU utilization падение
95. Написать runbook для synthetic data collapse
99. Написать postmortem для cache stampede
110. Реализовать quality gates для агента
111. Настроить drift detection для агента
127. Реализовать outsourcing другому LLM
144. Настроить anomaly detection по cost
153. Настроить chaos testing
154. Протестировать multi-turn диалоги

baseline

baseline

Определение

Где встречается

Навигация

baseline

baseline

Определение

Где встречается

Навигация