Answer relevance

Определение

Метрика качества генерации, определяющая, насколько ответ отвечает на заданный вопрос.

Где встречается

5. Как вы оцениваете качество retrieval'а в RAG-системе
16. Как вы оцениваете качество генерации в RAG. Назовите 3 ключевые метрики.
62. Какие метрики вы мониторите для LLM в production
71. Как вы тестируете RAG-систему на новых документах без реальных пользователей
95. Как вы храните историю изменений промптов (prompt lineage)
106. Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику
115. Как вы обрабатываете большие таблицы в RAG (500+ строк)
133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.
134. Как вы оцениваете faithfulness RAG-ответа в production автоматически
140. Как вы проверяете, что новая версия модели не сломала старые кейсы
162. Что такое Quasar и как quantized verification ускоряет инференс
177. Как вы измеряете дрейф модели (model drift) для LLM
178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
192. Как вы оцениваете качество language representation для задачи
233. Как вы делаете hybrid search (vector + keyword) в production на 10M документов
241. Как вы делаете distributed tracing для цепочки user → gateway → RAG → LLM → user
243. Как вы делаете blue-green deployment для RAG системы с zero downtime
341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)
342. Что такое statistical power evaluation и как определять размер выборки
349. Как вы проводите AB тест метрик качества (не бизнес-метрик)
374. Как вы делаете query rewriting и query expansion в RAG
491. Что такое statistical power evaluation и как определять размер выборки для AB теста
494. Что такое synthetic eval collapse и как его предотвратить
495. Что такое pairwise comparison vs scalar rating Когда что использовать
498. Что такое meta-evaluation бенчмарков (оценка оценки)
504. Как вы оцениваете cost-effectiveness LLM-пайплайна
519. Как вы делаете backfill эмбеддингов при смене embedding модели
529. Как вы проектируете feature engineering для контекста RAG (кроме текста)
560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей
571. Как работают verifier models для agentic RAG и зачем они нужны
682. Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)
685. Как вы детектируете и удаляете низкокачественные примеры из синтетического датасета
687. Как вы делаете synthetic eval (генерация тестовых вопросов по документам)
748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)
755. Что такое эволюция (evolution) в Harness Engineering (component registry, drift detection)
766. Что такое delegation by exception (делегирование только по исключению)
783. Как сравнивать cost efficiency разных LLM провайдеров
790. Что такое «canary testing» для агентов (10% трафика на новую версию)
798. Как тестировать промпты на регрессии (prompt regression suite)
799. Как интегрировать тестирование агентов в CICD

Answer relevance

Answer relevance

Определение

Где встречается

Навигация

Answer relevance

Answer relevance

Определение

Где встречается

Навигация