Поиск

  • wikiA/B тестирование промптов

    # A/B тестирование промптов ## Определение Метод сравнения версий промптов в production с разделением трафика для выбора лучшего варианта по метрикам…

  • wikiдетерминированное распределение трафика

    …воспроизводимость и детерминированность A/B-тестирования. ## Где встречается - [[163. Реализовать AB тестирование промптов|163. Реализовать AB тестирование промптов]] ## Навигация - [[00…

  • wikiA/B testing

    …Как вы делаете AB тестирование двух моделей в production|76. Как вы делаете AB тестирование двух моделей в production]] - [[79…

  • wikiShapiro-Wilk

    …Whitney) в A/B тестировании промптов. ## Где встречается - [[163. Реализовать AB тестирование промптов|163. Реализовать AB тестирование промптов]] - [[248. Агент…

  • wikiBigQuery

    …поколений LLM при A/B тестировании промптов в production. ## Где встречается - [[801. Как делать AB тестирование промптов в production|801…

  • wikibucket

    …в A/B-тестах. ## Где встречается - [[801. Как делать AB тестирование промптов в production|801. Как делать AB тестирование промптов…

  • wikidelta method

    …Применяется при A/B-тестировании промптов. ## Где встречается - [[801. Как делать AB тестирование промптов в production|801. Как делать AB…

  • wikiday-of-week effect

    # day-of-week effect ## Определение Эффект дня недели, возникающий при A/B-тестировании промптов в production: запуск в пятницу может…

  • wikiservice mesh

    …применяемый для роутинга A/B-тестов и обеспечения отказоустойчивости. ## Где встречается - [[76. Как вы делаете AB тестирование двух моделей в…

  • wikiTreatment

    # Treatment ## Определение В A/B эксперименте — группа пользователей или запросов, получающая новую версию промпта, агента или RAG (в отличие от…

  • wikiMann–Whitney U

    …метрик (latency, cost) при A/B-тестировании LLM. ## Где встречается - [[76. Как вы делаете AB тестирование двух моделей в production…

  • answerКак делать A/B тестирование промптов в production?

    …Как делать A/B тестирование промптов в production? ## Краткий тезис [[Вики/inference\|тестирование]] промптов|[[Вики/AB testing\|A/B тестирование

  • wikiuser_id

    # user_id ## Определение Уникальный идентификатор пользователя, применяемый для стабильной рандомизации A/B-тестов, маршрутизации запросов в multi-region системах, привязки…

  • wikinovelty effect

    # novelty effect ## Определение Искажение метрик A/B-тестов, вызванное временным повышением интереса пользователей к новой функции или формату, а не…

  • wikicontrol

    # control ## Определение Базовый вариант или эталон (например, старая модель или промпт), с которым сравниваются экспериментальные варианты в A/B тестах…

  • wikiEvolution

    …drift detection, component registry, A/B тестирование. ## Где встречается - [[738. Назовите 12+ слоёв эталонной архитектуры Harness.|738. Назовите 12+ слоёв…

  • wikiPrompt testing strategies

    # Prompt testing strategies ## Определение Подходы к тестированию корректности и устойчивости промптов, включая регрессионное и A/B-тестирование. ## Где встречается - [[167…

  • wikiSageMaker

    # SageMaker ## Определение AWS-сервис для машинного обучения, поддерживающий A/B тестирование моделей. ## Где встречается - [[790. Что такое «canary testing» для…

  • wikisemantic tag

    # semantic tag ## Определение Семантические теги (latest, stable, canary) маркируют стадии развёртывания промптов, позволяя управлять версиями и A/B-тестированием. ## Где…

  • wikioffline evaluation

    …реальных пользователей, позволяющая быстро отсеять неэффективные версии перед A/B-тестированием. ## Где встречается - [[71. Как вы тестируете RAG-систему на…

  • wikipower analysis

    # power analysis ## Определение Метод определения минимального размера выборки для A/B-теста или эксперимента с заданной статистической мощностью, уровнем значимости…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать prompt lifecycle

    …Создать repeatable [[Вики/пайплайн автоматического тестирования\|pipeline]], который обеспечивает контроль версий, ревью, [[Вики/AB testing\|A/B тестирование]], [[Вики/canary…

  • wikiпромпты

    …Версионируются отдельно от кода и оптимизируются через A/B-тестирование. ## Где встречается - [[398. Как вы версионируете агента целиком (prompts, tools…

  • wikiBonferroni correction

    …ошибки (FWER) в A/B-тестировании и оценке метрик. ## Где встречается - [[76. Как вы делаете AB тестирование двух моделей в…

  • answerКак вы A/B тестируете две версии промпта в production?

    A/B тестирование (A/B testing) [[Вики/AB testing\|A/B тестирование]] — это метод сравнения двух вариантов (A — контроль, B…

  • wikit-test

    …двумя группами, используемый в A/B-тестировании. ## Где встречается - [[76. Как вы делаете AB тестирование двух моделей в production|76…

  • answerКак вы управляете разными версиями промптов в production?

    A/Bтестирование промптов (эксперименты) **Термин «A/B‑тест»** — сравнение двух версий промпта на реальном трафике с измерением [[Вики/Query…

  • answerЧто такое statistical power evaluation и как определять размер выборки для A/B теста?

    …Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)\|490]] | Как проводить A/B тестирование в RAG системах | | [[492. Как…

  • wikisequential testing

    # sequential testing ## Определение Метод A/B-тестирования, позволяющий останавливать эксперимент при достижении статистической значимости без увеличения ошибки I рода. Исключает…

  • answerКак вы A/B тестируете агентов в production?

    A/B тестирование агентов [[Вики/AB testing\|A/B тестирование]] ([[Вики/AB testing\|сплит-тестирование]]) — метод сравнения двух версий системы…

  • wikiстатистическая значимость

    …Реализовать AB тестирование промптов|163. Реализовать AB тестирование промптов]] - [[248. Агент с AB тестированием|248. Агент с AB тестированием]] ## Навигация…

  • answerКак вы делаете A/B тестирование двух моделей в production?

    A/B тестирование в ML [[Вики/AB testing\|A/B тестирование]] ([[Вики/AB testing\|сплит-тестирование]]) — метод сравнения двух версий…

  • answerКак вы A/B тестируете две версии промпта в production?

    …Как вы A/B тестируете две версии промпта в production? ## Краткий тезис [[Вики/inference\|тестирование]] промптов|[[Вики/AB testing\|A

  • wikiFeature flag

    …переразвёртывания, используемый для A/B тестирования и постепенного развёртывания. ## Где встречается - [[76. Как вы делаете AB тестирование двух моделей в…

  • wikiproduction

    …Включает A/B тестирование, мониторинг и безопасный деплой, часто использует гибрид fine-tuned модели и RAG. ## Где встречается - [[71. Как…

  • wikiрандомизация

    …случайное распределение для A/B-тестов и балансировки нагрузки. ## Где встречается - [[76. Как вы делаете AB тестирование двух моделей в…

  • wikiShadow mode

    …Как делать AB тестирование промптов в production|801. Как делать AB тестирование промптов в production]] - [[800+ вопросов|800+ вопросов]] ## Навигация…

  • answerКак вы деплоите policy (RLHF модель) в production с online feedback loop?

    A/B тестирование и canary deployment Деплой новой [[Вики/Policy\|policy]] начинается с A/B теста ([[Вики/AB testing\|split…

  • answerЧто такое statistical power evaluation и как определять размер выборки?

    …Что такое reward hacking в RLHF и как его детектировать\|344]] | A/B-тестирование в ML-продуктах | | [[345. Как вы…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Спроектировать progressive disclosure для ответов AI-ассистента

    …что измерять? | | 198 | Как настроить A/B-тестирование UI-компонентов? | | 265 | Принципы progressive disclosure в веб-дизайне | | 334 | Инструменты аналитики…

  • answerКак тестировать delegation paths (интеграционное тестирование multi-agent)?

    …Пути бывают: | Тип пути | Пример | Тестовый сценарий | |----------|--------|-------------------| | Линейный | A → B → C | Запрос проходит через всех агентов последовательно | | Разветвлённый | A → B

  • wikibootstrap

    …Как делать AB тестирование промптов в production|801. Как делать AB тестирование промптов в production]] - [[871. Как делать pairwise ranking…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать cost-aware caching для дорогих ответов GPT-4

    …Измерение эффекта и A/B тестирование (1 час) Действия 1. Запустить прокси на тестовом трафике (или симуляции) в течение 1…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Спроектировать onboarding для агента

    …Связанные вопросы из базы знаний | Вопрос | Тема | |--------|------| | 12 | Как проектировать user flow для AI-продукта | | 45 | A/B тестирование в…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать user trust метрику

    …DAU, WAU, retention | | #45 | A/B тестирование AI-продуктов | | #78 | Сбор пользовательских событий (event tracking) | | #101 | Экспоненциальное сглаживание временных рядов…

  • answerЧто такое Harness Engineering и чем он отличается от Prompt Engineering и MLOps?

    A/B тестирование разных промптов или guardrails, мониторинг user feedback. ### 5.4 Versioning & Rollback Управление версиями: - [[Вики/Prompt lifecycle\|Prompt…

  • answerКак вы тестируете RAG-систему на новых документах без реальных пользователей?

    …Как вы реализуете A/B-тестирование в RAG-системе\|72]] - Индекс: [[00. Индекс разборов]] --- ## Навигация (Obsidian) - Предыдущий: [[70. Как вы…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать A/B тестирование промптов

    …Реализовать A/B тестирование промптов ## 1. Цель задачи Научиться проектировать и проводить [[Вики/AB testing\|A/B-тестирование]] двух версий…

  • answerЧто такое «canary testing» для агентов (10% трафика на новую версию)?

    …Canary testing тесно пересекается с A/B тестированием (вопрос 789), но в A/B тестировании обе версии живут одновременно долгое…

  • answerКак делать canary deployment для промптов (5% трафика)?

    …Ключевые компоненты: **feature flags**, A/B-тестирование, онлайн-оценка и пороговые условия отката. --- ## 1. Термин: Canary deployment (канареечное развёртывание) **[[Вики…