English translation is not available yet. Showing Russian content.
A/B testing
A/B testing
Определение
Метод сравнения двух версий модели, пайплайна или промпта в production с разделением трафика для оценки эффекта изменений.
Где встречается
- 3 Какие стратегии chunking'а вы знаете и когда какую применяете
- 6. Что такое гибридный поиск и когда он нужен
- 25. Как вы оцениваете качество после fine-tuning
- 61. Как вы разворачиваете LLM в production (self-hosted)
- 62. Какие метрики вы мониторите для LLM в production
- 69. Как вы организуете CICD для RAG-пайплайна
- 71. Как вы тестируете RAG-систему на новых документах без реальных пользователей
- 73. Как вы логируете все вызовы LLM для аудита
- 74. Как вы мониторите дрейф данных (data drift) для RAG
- 76. Как вы делаете AB тестирование двух моделей в production
- 79. Как вы обновляете embedding модель без полной переиндексации
- 80. Какие 3 книгикурса вы рекомендуете по production LLM
- 89. Как вы спроектируете систему, которая может переключаться между разными LLM провайдерами без даунтайма
- 90. Как вы проектируете API для внешних систем, использующих вашу LLM
- 93. Как вы дебажите проблему LLM не следовала системному промпту
- 95. Как вы храните историю изменений промптов (prompt lineage)
- 106. Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику
- 109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production
- 136. Как вы AB тестируете две версии промпта в production
- 139. Как вы оцениваете cost-effectiveness LLM-пайплайна
- 140. Как вы проверяете, что новая версия модели не сломала старые кейсы
- 156. Как вы выбираете между увеличением тест-тайм компьютинга и использованием большей модели
- 166. Назовите 7 production failure modes для agentic AI систем по PAEF (Pandey, 2026).
- 173. Как вы оцениваете креативность LLM в production
- 178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
- 179. Как вы AB тестируете агентов в production
- 186. Что такое «shaping schema through language representation»
- 233. Как вы делаете hybrid search (vector + keyword) в production на 10M документов
- 241. Как вы делаете distributed tracing для цепочки user → gateway → RAG → LLM → user
- 250. Как вы делаете health check для LLM сервера с учетом модели (не только процесс)
- 251. Как вы деплоите LLM на spot instances в облаке
- 272. Как вы проверяете качество parsing документов (PDF, DOCX) в production
- 342. Что такое statistical power evaluation и как определять размер выборки
- 381. Как вы определяете SLO и SLA для LLM сервиса
- 382. Как вы проектируете canary deployment для LLM модели
- 383. Что такое error budget для AI качества и как его считать
- 385. Как вы автоматизируете rollback при деградации качества
- 390. Как вы проектируем on-call ротацию для AI сервиса
- 391. Как вы проектируете агента, который может работать непрерывно (247) без дрейфа поведения
- 398. Как вы версионируете агента целиком (prompts, tools, memory schema, orchestration graph)