RAGAS
RAGAS
Определение
RAGAS (Retrieval Augmented Generation Assessment) — фреймворк для автоматической оценки RAG-систем, включающий метрики faithfulness, answer relevance и context relevance. Не требует LLM-судьи и позволяет оценивать качество поиска и генерации.
Где встречается
- 5. Как вы оцениваете качество retrieval'а в RAG-системе
- 16. Как вы оцениваете качество генерации в RAG. Назовите 3 ключевые метрики.
- 17. Как вы уменьшаете галлюцинации в RAG
- 20. Как вы обеспечиваете, что RAG работает с документами на русском и английском одновременно
- 41. LangChain vs LlamaIndex vs Haystack — что выберете и почему
- 62. Какие метрики вы мониторите для LLM в production
- 71. Как вы тестируете RAG-систему на новых документах без реальных пользователей
- 95. Как вы храните историю изменений промптов (prompt lineage)
- 96. Как вы предотвращаете галлюцинации в production RAG системе
- 106. Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику
- 109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production
- 114. Что такое Layout-Aware Chunking и как он связан с мультимодальностью
- 115. Как вы обрабатываете большие таблицы в RAG (500+ строк)
- 118. Как вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал
- 119. Как вы комбинируете текстовый и визуальный поиск (early fusion vs late fusion)
- 133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.
- 134. Как вы оцениваете faithfulness RAG-ответа в production автоматически
- 140. Как вы проверяете, что новая версия модели не сломала старые кейсы
- 162. Что такое Quasar и как quantized verification ускоряет инференс
- 174. Что такое «многошаговая когерентность» (coherence illusion) в cascading agent systems
- 175. Как детектировать «объяснительно-решенческую декомпозицию»
- 177. Как вы измеряете дрейф модели (model drift) для LLM
- 178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
- 192. Как вы оцениваете качество language representation для задачи
- 196. Как language representation связан с тест-тайм компьютингом
- 243. Как вы делаете blue-green deployment для RAG системы с zero downtime
- 341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)
- 343. Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)
- 349. Как вы проводите AB тест метрик качества (не бизнес-метрик)
- 374. Как вы делаете query rewriting и query expansion в RAG
- 381. Как вы определяете SLO и SLA для LLM сервиса
- 383. Что такое error budget для AI качества и как его считать
- 385. Как вы автоматизируете rollback при деградации качества
- 388. Что такое SLI (Service Level Indicators) для AI системы и как их собирать
- 395. Как вы тестируете агента на «неожиданные input» (не только adversarial, но и просто странные)
- 430. Как вы делаете canary analysis для новой LLM модели
- 493. Что такое Positional bias в LLM-as-Judge и как его исправить
- 502. Как вы AB тестируете две версии промпта в production
- 504. Как вы оцениваете cost-effectiveness LLM-пайплайна
- 505. Как вы проверяете, что новая версия модели не сломала старые кейсы