中文翻译暂不可用,显示俄语原文。
Answer relevance
Answer relevance
Определение
Метрика качества генерации, определяющая, насколько ответ отвечает на заданный вопрос.
Где встречается
- 5. Как вы оцениваете качество retrieval'а в RAG-системе
- 16. Как вы оцениваете качество генерации в RAG. Назовите 3 ключевые метрики.
- 62. Какие метрики вы мониторите для LLM в production
- 71. Как вы тестируете RAG-систему на новых документах без реальных пользователей
- 95. Как вы храните историю изменений промптов (prompt lineage)
- 106. Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику
- 115. Как вы обрабатываете большие таблицы в RAG (500+ строк)
- 133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.
- 134. Как вы оцениваете faithfulness RAG-ответа в production автоматически
- 140. Как вы проверяете, что новая версия модели не сломала старые кейсы
- 162. Что такое Quasar и как quantized verification ускоряет инференс
- 177. Как вы измеряете дрейф модели (model drift) для LLM
- 178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
- 192. Как вы оцениваете качество language representation для задачи
- 233. Как вы делаете hybrid search (vector + keyword) в production на 10M документов
- 241. Как вы делаете distributed tracing для цепочки user → gateway → RAG → LLM → user
- 243. Как вы делаете blue-green deployment для RAG системы с zero downtime
- 341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)
- 342. Что такое statistical power evaluation и как определять размер выборки
- 349. Как вы проводите AB тест метрик качества (не бизнес-метрик)
- 374. Как вы делаете query rewriting и query expansion в RAG
- 491. Что такое statistical power evaluation и как определять размер выборки для AB теста
- 494. Что такое synthetic eval collapse и как его предотвратить
- 495. Что такое pairwise comparison vs scalar rating Когда что использовать
- 498. Что такое meta-evaluation бенчмарков (оценка оценки)
- 504. Как вы оцениваете cost-effectiveness LLM-пайплайна
- 519. Как вы делаете backfill эмбеддингов при смене embedding модели
- 529. Как вы проектируете feature engineering для контекста RAG (кроме текста)
- 560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей
- 571. Как работают verifier models для agentic RAG и зачем они нужны
- 682. Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)
- 685. Как вы детектируете и удаляете низкокачественные примеры из синтетического датасета
- 687. Как вы делаете synthetic eval (генерация тестовых вопросов по документам)
- 748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)
- 755. Что такое эволюция (evolution) в Harness Engineering (component registry, drift detection)
- 766. Что такое delegation by exception (делегирование только по исключению)
- 783. Как сравнивать cost efficiency разных LLM провайдеров
- 790. Что такое «canary testing» для агентов (10% трафика на новую версию)
- 798. Как тестировать промпты на регрессии (prompt regression suite)
- 799. Как интегрировать тестирование агентов в CICD