Оглавление
Вопросы
Практика
Вики
Материалы сообщества
Тесты
Поиск

✈Telegram @ai_varo

…

Оглавление/Вики/DeepEval

DeepEval

DeepEval

Определение

Инструмент для оценки RAG-систем

Где встречается

5. Как вы оцениваете качество retrieval'а в RAG-системе
41. LangChain vs LlamaIndex vs Haystack — что выберете и почему
96. Как вы предотвращаете галлюцинации в production RAG системе
106. Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику
109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production
134. Как вы оцениваете faithfulness RAG-ответа в production автоматически
140. Как вы проверяете, что новая версия модели не сломала старые кейсы
176. Какие инструменты для агентской эвалюации вы используете
178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)
343. Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)
349. Как вы проводите AB тест метрик качества (не бизнес-метрик)
395. Как вы тестируете агента на «неожиданные input» (не только adversarial, но и просто странные)
529. Как вы проектируете feature engineering для контекста RAG (кроме текста)
644. Как вы оцениваете faithfulness ответа на длинном контексте (когда много информации)
777. Что такое «cost per good answer» и как его измерять
786. Что такое «golden dataset» для агента и как его создавать
789. Как тестировать multi-turn диалоги агента
790. Что такое «canary testing» для агентов (10% трафика на новую версию)
792. Что такое «regression testing» для агентов (старый кейс сломался)
798. Как тестировать промпты на регрессии (prompt regression suite)
799. Как интегрировать тестирование агентов в CICD
802. Что такое «prompt as code» (промпты в Git, code review)
878. Как измерять faithfulness для long-form ответов (1000+ токенов)
800+ вопросов
254. Реализовать SLO для RAG

Навигация

Индекс терминов
Индекс разборов
Оглавление