регрессионное тестирование

Определение

Набор тестов (обычно 200–500 продакшен-кейсов) для проверки, что изменения модели или промпта не ломают старые сценарии.

Где встречается

95. Как вы храните историю изменений промптов (prompt lineage)
140. Как вы проверяете, что новая версия модели не сломала старые кейсы
272. Как вы проверяете качество parsing документов (PDF, DOCX) в production
345. Как вы проектируете red teaming evaluation для jailbreak устойчивости
505. Как вы проверяете, что новая версия модели не сломала старые кейсы
527. Как вы проверяете качество парсинга документов (PDF, DOCX) в production
748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)
769. Как тестировать delegation paths (интеграционное тестирование multi-agent)
785. Как тестировать агентов на недетерминированность
786. Что такое «golden dataset» для агента и как его создавать
792. Что такое «regression testing» для агентов (старый кейс сломался)
802. Что такое «prompt as code» (промпты в Git, code review)
806. Как управлять dependency между промптами (один промпт вызывает другой)
809. Как управлять версиями промптов в production (best practices)
880. Как проектировать golden dataset для agent evaluation
Практика
800+ вопросов
146. Реализовать golden dataset для агента
154. Протестировать multi-turn диалоги
276. Настроить RAGAS evaluation pipeline

регрессионное тестирование

регрессионное тестирование

Определение

Где встречается

Навигация