регрессионное тестирование
регрессионное тестирование
Определение
Набор тестов (обычно 200–500 продакшен-кейсов) для проверки, что изменения модели или промпта не ломают старые сценарии.
Где встречается
- 95. Как вы храните историю изменений промптов (prompt lineage)
- 140. Как вы проверяете, что новая версия модели не сломала старые кейсы
- 272. Как вы проверяете качество parsing документов (PDF, DOCX) в production
- 345. Как вы проектируете red teaming evaluation для jailbreak устойчивости
- 505. Как вы проверяете, что новая версия модели не сломала старые кейсы
- 527. Как вы проверяете качество парсинга документов (PDF, DOCX) в production
- 748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)
- 769. Как тестировать delegation paths (интеграционное тестирование multi-agent)
- 785. Как тестировать агентов на недетерминированность
- 786. Что такое «golden dataset» для агента и как его создавать
- 792. Что такое «regression testing» для агентов (старый кейс сломался)
- 802. Что такое «prompt as code» (промпты в Git, code review)
- 806. Как управлять dependency между промптами (один промпт вызывает другой)
- 809. Как управлять версиями промптов в production (best practices)
- 880. Как проектировать golden dataset для agent evaluation
- Практика
- 800+ вопросов
- 146. Реализовать golden dataset для агента
- 154. Протестировать multi-turn диалоги
- 276. Настроить RAGAS evaluation pipeline