Поиск
- wikiA/B тестирование промптов
# A/B тестирование промптов ## Определение Метод сравнения версий промптов в production с разделением трафика для выбора лучшего варианта по метрикам…
- wikiдетерминированное распределение трафика
…воспроизводимость и детерминированность A/B-тестирования. ## Где встречается - [[163. Реализовать AB тестирование промптов|163. Реализовать AB тестирование промптов]] ## Навигация - [[00…
- wikiA/B testing
…Как вы делаете AB тестирование двух моделей в production|76. Как вы делаете AB тестирование двух моделей в production]] - [[79…
- wikiShapiro-Wilk
…Whitney) в A/B тестировании промптов. ## Где встречается - [[163. Реализовать AB тестирование промптов|163. Реализовать AB тестирование промптов]] - [[248. Агент…
- wikiBigQuery
…поколений LLM при A/B тестировании промптов в production. ## Где встречается - [[801. Как делать AB тестирование промптов в production|801…
- wikibucket
…в A/B-тестах. ## Где встречается - [[801. Как делать AB тестирование промптов в production|801. Как делать AB тестирование промптов…
- wikidelta method
…Применяется при A/B-тестировании промптов. ## Где встречается - [[801. Как делать AB тестирование промптов в production|801. Как делать AB…
- wikiday-of-week effect
# day-of-week effect ## Определение Эффект дня недели, возникающий при A/B-тестировании промптов в production: запуск в пятницу может…
- wikiservice mesh
…применяемый для роутинга A/B-тестов и обеспечения отказоустойчивости. ## Где встречается - [[76. Как вы делаете AB тестирование двух моделей в…
- wikiTreatment
# Treatment ## Определение В A/B эксперименте — группа пользователей или запросов, получающая новую версию промпта, агента или RAG (в отличие от…
- wikiMann–Whitney U
…метрик (latency, cost) при A/B-тестировании LLM. ## Где встречается - [[76. Как вы делаете AB тестирование двух моделей в production…
- answerКак делать A/B тестирование промптов в production?
…Как делать A/B тестирование промптов в production? ## Краткий тезис [[Вики/inference\|тестирование]] промптов|[[Вики/AB testing\|A/B тестирование…
- wikiuser_id
# user_id ## Определение Уникальный идентификатор пользователя, применяемый для стабильной рандомизации A/B-тестов, маршрутизации запросов в multi-region системах, привязки…
- wikinovelty effect
# novelty effect ## Определение Искажение метрик A/B-тестов, вызванное временным повышением интереса пользователей к новой функции или формату, а не…
- wikicontrol
# control ## Определение Базовый вариант или эталон (например, старая модель или промпт), с которым сравниваются экспериментальные варианты в A/B тестах…
- wikiEvolution
…drift detection, component registry, A/B тестирование. ## Где встречается - [[738. Назовите 12+ слоёв эталонной архитектуры Harness.|738. Назовите 12+ слоёв…
- wikiPrompt testing strategies
# Prompt testing strategies ## Определение Подходы к тестированию корректности и устойчивости промптов, включая регрессионное и A/B-тестирование. ## Где встречается - [[167…
- wikiSageMaker
# SageMaker ## Определение AWS-сервис для машинного обучения, поддерживающий A/B тестирование моделей. ## Где встречается - [[790. Что такое «canary testing» для…
- wikisemantic tag
# semantic tag ## Определение Семантические теги (latest, stable, canary) маркируют стадии развёртывания промптов, позволяя управлять версиями и A/B-тестированием. ## Где…
- wikioffline evaluation
…реальных пользователей, позволяющая быстро отсеять неэффективные версии перед A/B-тестированием. ## Где встречается - [[71. Как вы тестируете RAG-систему на…
- wikipower analysis
# power analysis ## Определение Метод определения минимального размера выборки для A/B-теста или эксперимента с заданной статистической мощностью, уровнем значимости…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать prompt lifecycle
…Создать repeatable [[Вики/пайплайн автоматического тестирования\|pipeline]], который обеспечивает контроль версий, ревью, [[Вики/AB testing\|A/B тестирование]], [[Вики/canary…
- wikiпромпты
…Версионируются отдельно от кода и оптимизируются через A/B-тестирование. ## Где встречается - [[398. Как вы версионируете агента целиком (prompts, tools…
- wikiBonferroni correction
…ошибки (FWER) в A/B-тестировании и оценке метрик. ## Где встречается - [[76. Как вы делаете AB тестирование двух моделей в…
- answerКак вы A/B тестируете две версии промпта в production?
…A/B тестирование (A/B testing) [[Вики/AB testing\|A/B тестирование]] — это метод сравнения двух вариантов (A — контроль, B…
- wikit-test
…двумя группами, используемый в A/B-тестировании. ## Где встречается - [[76. Как вы делаете AB тестирование двух моделей в production|76…
- answerКак вы управляете разными версиями промптов в production?
…A/B‑тестирование промптов (эксперименты) **Термин «A/B‑тест»** — сравнение двух версий промпта на реальном трафике с измерением [[Вики/Query…
- answerЧто такое statistical power evaluation и как определять размер выборки для A/B теста?
…Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)\|490]] | Как проводить A/B тестирование в RAG системах | | [[492. Как…
- wikisequential testing
# sequential testing ## Определение Метод A/B-тестирования, позволяющий останавливать эксперимент при достижении статистической значимости без увеличения ошибки I рода. Исключает…
- answerКак вы A/B тестируете агентов в production?
…A/B тестирование агентов [[Вики/AB testing\|A/B тестирование]] ([[Вики/AB testing\|сплит-тестирование]]) — метод сравнения двух версий системы…
- wikiстатистическая значимость
…Реализовать AB тестирование промптов|163. Реализовать AB тестирование промптов]] - [[248. Агент с AB тестированием|248. Агент с AB тестированием]] ## Навигация…
- answerКак вы делаете A/B тестирование двух моделей в production?
…A/B тестирование в ML [[Вики/AB testing\|A/B тестирование]] ([[Вики/AB testing\|сплит-тестирование]]) — метод сравнения двух версий…
- answerКак вы A/B тестируете две версии промпта в production?
…Как вы A/B тестируете две версии промпта в production? ## Краткий тезис [[Вики/inference\|тестирование]] промптов|[[Вики/AB testing\|A…
- wikiFeature flag
…переразвёртывания, используемый для A/B тестирования и постепенного развёртывания. ## Где встречается - [[76. Как вы делаете AB тестирование двух моделей в…
- wikiproduction
…Включает A/B тестирование, мониторинг и безопасный деплой, часто использует гибрид fine-tuned модели и RAG. ## Где встречается - [[71. Как…
- wikiрандомизация
…случайное распределение для A/B-тестов и балансировки нагрузки. ## Где встречается - [[76. Как вы делаете AB тестирование двух моделей в…
- wikiShadow mode
…Как делать AB тестирование промптов в production|801. Как делать AB тестирование промптов в production]] - [[800+ вопросов|800+ вопросов]] ## Навигация…
- answerКак вы деплоите policy (RLHF модель) в production с online feedback loop?
…A/B тестирование и canary deployment Деплой новой [[Вики/Policy\|policy]] начинается с A/B теста ([[Вики/AB testing\|split…
- answerЧто такое statistical power evaluation и как определять размер выборки?
…Что такое reward hacking в RLHF и как его детектировать\|344]] | A/B-тестирование в ML-продуктах | | [[345. Как вы…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Спроектировать progressive disclosure для ответов AI-ассистента
…что измерять? | | 198 | Как настроить A/B-тестирование UI-компонентов? | | 265 | Принципы progressive disclosure в веб-дизайне | | 334 | Инструменты аналитики…
- answerКак тестировать delegation paths (интеграционное тестирование multi-agent)?
…Пути бывают: | Тип пути | Пример | Тестовый сценарий | |----------|--------|-------------------| | Линейный | A → B → C | Запрос проходит через всех агентов последовательно | | Разветвлённый | A → B…
- wikibootstrap
…Как делать AB тестирование промптов в production|801. Как делать AB тестирование промптов в production]] - [[871. Как делать pairwise ranking…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать cost-aware caching для дорогих ответов GPT-4
…Измерение эффекта и A/B тестирование (1 час) Действия 1. Запустить прокси на тестовом трафике (или симуляции) в течение 1…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Спроектировать onboarding для агента
…Связанные вопросы из базы знаний | Вопрос | Тема | |--------|------| | 12 | Как проектировать user flow для AI-продукта | | 45 | A/B тестирование в…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать user trust метрику
…DAU, WAU, retention | | #45 | A/B тестирование AI-продуктов | | #78 | Сбор пользовательских событий (event tracking) | | #101 | Экспоненциальное сглаживание временных рядов…
- answerЧто такое Harness Engineering и чем он отличается от Prompt Engineering и MLOps?
…A/B тестирование разных промптов или guardrails, мониторинг user feedback. ### 5.4 Versioning & Rollback Управление версиями: - [[Вики/Prompt lifecycle\|Prompt…
- answerКак вы тестируете RAG-систему на новых документах без реальных пользователей?
…Как вы реализуете A/B-тестирование в RAG-системе\|72]] - Индекс: [[00. Индекс разборов]] --- ## Навигация (Obsidian) - Предыдущий: [[70. Как вы…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать A/B тестирование промптов
…Реализовать A/B тестирование промптов ## 1. Цель задачи Научиться проектировать и проводить [[Вики/AB testing\|A/B-тестирование]] двух версий…
- answerЧто такое «canary testing» для агентов (10% трафика на новую версию)?
…Canary testing тесно пересекается с A/B тестированием (вопрос 789), но в A/B тестировании обе версии живут одновременно долгое…
- answerКак делать canary deployment для промптов (5% трафика)?
…Ключевые компоненты: **feature flags**, A/B-тестирование, онлайн-оценка и пороговые условия отката. --- ## 1. Термин: Canary deployment (канареечное развёртывание) **[[Вики…