A/B testing

Определение

Метод сравнения двух версий модели, пайплайна или промпта в production с разделением трафика для оценки эффекта изменений.

Где встречается

3 Какие стратегии chunking'а вы знаете и когда какую применяете
6. Что такое гибридный поиск и когда он нужен
25. Как вы оцениваете качество после fine-tuning
61. Как вы разворачиваете LLM в production (self-hosted)
62. Какие метрики вы мониторите для LLM в production
69. Как вы организуете CICD для RAG-пайплайна
71. Как вы тестируете RAG-систему на новых документах без реальных пользователей
73. Как вы логируете все вызовы LLM для аудита
74. Как вы мониторите дрейф данных (data drift) для RAG
76. Как вы делаете AB тестирование двух моделей в production
79. Как вы обновляете embedding модель без полной переиндексации
80. Какие 3 книгикурса вы рекомендуете по production LLM
89. Как вы спроектируете систему, которая может переключаться между разными LLM провайдерами без даунтайма
90. Как вы проектируете API для внешних систем, использующих вашу LLM
93. Как вы дебажите проблему LLM не следовала системному промпту
95. Как вы храните историю изменений промптов (prompt lineage)
106. Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику
109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production
136. Как вы AB тестируете две версии промпта в production
139. Как вы оцениваете cost-effectiveness LLM-пайплайна
140. Как вы проверяете, что новая версия модели не сломала старые кейсы
156. Как вы выбираете между увеличением тест-тайм компьютинга и использованием большей модели
166. Назовите 7 production failure modes для agentic AI систем по PAEF (Pandey, 2026).
173. Как вы оцениваете креативность LLM в production
178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
179. Как вы AB тестируете агентов в production
186. Что такое «shaping schema through language representation»
233. Как вы делаете hybrid search (vector + keyword) в production на 10M документов
241. Как вы делаете distributed tracing для цепочки user → gateway → RAG → LLM → user
250. Как вы делаете health check для LLM сервера с учетом модели (не только процесс)
251. Как вы деплоите LLM на spot instances в облаке
272. Как вы проверяете качество parsing документов (PDF, DOCX) в production
342. Что такое statistical power evaluation и как определять размер выборки
381. Как вы определяете SLO и SLA для LLM сервиса
382. Как вы проектируете canary deployment для LLM модели
383. Что такое error budget для AI качества и как его считать
385. Как вы автоматизируете rollback при деградации качества
390. Как вы проектируем on-call ротацию для AI сервиса
391. Как вы проектируете агента, который может работать непрерывно (247) без дрейфа поведения
398. Как вы версионируете агента целиком (prompts, tools, memory schema, orchestration graph)

A/B testing

A/B testing

Определение

Где встречается

Навигация

A/B testing

A/B testing

Определение

Где встречается

Навигация