DeepEval
DeepEval
Определение
Инструмент для оценки RAG-систем
Где встречается
- 5. Как вы оцениваете качество retrieval'а в RAG-системе
- 41. LangChain vs LlamaIndex vs Haystack — что выберете и почему
- 96. Как вы предотвращаете галлюцинации в production RAG системе
- 106. Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику
- 109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production
- 134. Как вы оцениваете faithfulness RAG-ответа в production автоматически
- 140. Как вы проверяете, что новая версия модели не сломала старые кейсы
- 176. Какие инструменты для агентской эвалюации вы используете
- 178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
- 331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)
- 343. Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)
- 349. Как вы проводите AB тест метрик качества (не бизнес-метрик)
- 395. Как вы тестируете агента на «неожиданные input» (не только adversarial, но и просто странные)
- 529. Как вы проектируете feature engineering для контекста RAG (кроме текста)
- 644. Как вы оцениваете faithfulness ответа на длинном контексте (когда много информации)
- 777. Что такое «cost per good answer» и как его измерять
- 786. Что такое «golden dataset» для агента и как его создавать
- 789. Как тестировать multi-turn диалоги агента
- 790. Что такое «canary testing» для агентов (10% трафика на новую версию)
- 792. Что такое «regression testing» для агентов (старый кейс сломался)
- 798. Как тестировать промпты на регрессии (prompt regression suite)
- 799. Как интегрировать тестирование агентов в CICD
- 802. Что такое «prompt as code» (промпты в Git, code review)
- 878. Как измерять faithfulness для long-form ответов (1000+ токенов)
- 800+ вопросов
- 254. Реализовать SLO для RAG