статистическая значимость
статистическая значимость
Определение
Мера достоверности различий или эффектов, оцениваемая через p-value; обычно порог 0.05. Используется в A/B-тестировании и при детекции дрифта.
Где встречается
- 106. Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику
- 109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production
- 350. Как вы детектируете data contamination в evaluation датасетах
- 399. Как вы делаете AB тест между двумя агентами с разными архитектурами (ReAct vs Plan-and-Execute)
- 502. Как вы AB тестируете две версии промпта в production
- 613. Как работает model watermarking для LLM (идентификация модели-источника)
- 803. Как делать canary deployment для промптов (5% трафика)
- Практика
- 800+ вопросов
- 30. Настроить correlation между метриками
- 89. Спроектировать onboarding для агента
- 142. Реализовать cost-aware caching
- 163. Реализовать AB тестирование промптов
- 248. Агент с AB тестированием