RAGAS

Определение

RAGAS (Retrieval Augmented Generation Assessment) — фреймворк для автоматической оценки RAG-систем, включающий метрики faithfulness, answer relevance и context relevance. Не требует LLM-судьи и позволяет оценивать качество поиска и генерации.

Где встречается

5. Как вы оцениваете качество retrieval'а в RAG-системе
16. Как вы оцениваете качество генерации в RAG. Назовите 3 ключевые метрики.
17. Как вы уменьшаете галлюцинации в RAG
20. Как вы обеспечиваете, что RAG работает с документами на русском и английском одновременно
41. LangChain vs LlamaIndex vs Haystack — что выберете и почему
62. Какие метрики вы мониторите для LLM в production
71. Как вы тестируете RAG-систему на новых документах без реальных пользователей
95. Как вы храните историю изменений промптов (prompt lineage)
96. Как вы предотвращаете галлюцинации в production RAG системе
106. Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику
109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production
114. Что такое Layout-Aware Chunking и как он связан с мультимодальностью
115. Как вы обрабатываете большие таблицы в RAG (500+ строк)
118. Как вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал
119. Как вы комбинируете текстовый и визуальный поиск (early fusion vs late fusion)
133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.
134. Как вы оцениваете faithfulness RAG-ответа в production автоматически
140. Как вы проверяете, что новая версия модели не сломала старые кейсы
162. Что такое Quasar и как quantized verification ускоряет инференс
174. Что такое «многошаговая когерентность» (coherence illusion) в cascading agent systems
175. Как детектировать «объяснительно-решенческую декомпозицию»
177. Как вы измеряете дрейф модели (model drift) для LLM
178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
192. Как вы оцениваете качество language representation для задачи
196. Как language representation связан с тест-тайм компьютингом
243. Как вы делаете blue-green deployment для RAG системы с zero downtime
341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)
343. Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)
349. Как вы проводите AB тест метрик качества (не бизнес-метрик)
374. Как вы делаете query rewriting и query expansion в RAG
381. Как вы определяете SLO и SLA для LLM сервиса
383. Что такое error budget для AI качества и как его считать
385. Как вы автоматизируете rollback при деградации качества
388. Что такое SLI (Service Level Indicators) для AI системы и как их собирать
395. Как вы тестируете агента на «неожиданные input» (не только adversarial, но и просто странные)
430. Как вы делаете canary analysis для новой LLM модели
493. Что такое Positional bias в LLM-as-Judge и как его исправить
502. Как вы AB тестируете две версии промпта в production
504. Как вы оцениваете cost-effectiveness LLM-пайплайна
505. Как вы проверяете, что новая версия модели не сломала старые кейсы

RAGAS

RAGAS

Определение

Где встречается

Навигация

RAGAS

RAGAS

Определение

Где встречается

Навигация