Как вы A/B тестируете две версии промпта в production?

Q: 2. Зачем A/B тестировать промпты в production?

- улучшить качество ответов ([[Вики/accuracy\|точность]], полноту, стиль); - увеличить **[[Вики/TTFT\|latency]]** (из-за более длинного промпта); - повысить [[Вики/Inference cost\|cost]] (больше токенов); - изменить частоту отказов (refusals) или [[Вики/toxic content\|токсичность]].

Q: 3.1 Разделение трафика

Самый распространённый способ — [[Вики/Hashing\|хэширование]] [[Вики/user_id\|user_id]] с модулем по числу вариантов. Это гарантирует, что один [[Вики/user_id\|user_id]] всегда получает один и тот же вариант, если не меняется конфигурация эксперимента. import hashlib def get_variant(user_id: str, experiment_name: str, num_variants: int = 2) -> str:

Q: 3.3 Логирование

Каждый [[Вики/Prompt engineering\|запрос]] должен логироваться с полями: - [[Вики/user_id\|user_id]] и [[Вики/session_id\|session_id]]; - [[Вики/Treatment\|variant]] (A или B); - [[Вики/промпт агента\|prompt]] (полный текст промпта, чтобы можно было воспроизвести); - response (ответ [[Вики/GPT-4o\|LLM]]);

Q: 4. Метрики для сравнения

Метрики делятся на качественные ([[Вики/Evaluation\|оценка]] ответа) и количественные ([[Вики/performance\|производительность]], [[Вики/cost\|стоимость]]). | Тип | Метрика | Описание | Способ сбора | |-----|---------|----------|--------------| | Качественная | [[Вики/LLM-as-a-judge\|LLM-as-a-Judge]] | Оценка ответа другой LLM (например, GPT-4) по шкале 1-5 | Асинхронный вызов после генерации |

Q: 5.1 Выбор теста

- **[[Вики/t-test\|t-test]] (Стьюдента)** — для метрик, распределённых нормально (например, средняя [[Вики/Latency\|latency]] после преобразования Box-Cox). - [[Вики/Mann–Whitney U\|Mann-Whitney U test]] — для ненормальных распределений ([[Вики/p50\|медиана]] [[Вики/Latency\|latency]]).

Q: 5.2 Пример bootstrap на Python

import numpy as np def bootstrap_diff(metric_A, metric_B, n_iterations=10000): diffs = [] for _ in range(n_iterations): sample_A = np.random.choice(metric_A, size=len(metric_A), replace=True) sample_B = np.random.choice(metric_B, size=len(metric_B), replace=True) diffs.append(np.mean(sample_B) - np.mean(sample_A))

Краткий тезис

тестирование промптов|A/B тестирование промптов]] в production — это контролируемый эксперимент, в котором две группы пользователей получают разные версии промпта (контроль A и эксперимент B). Ключевые элементы: стабильное разделение трафика (обычно по user_id), сбор качественных и количественных метрик (latency, cost, user feedback, оценка LLM-as-a-Judge), и проверка статистической значимости различий с помощью t-test или bootstrap. Это единственный надёжный способ оценить влияние изменений промпта на реальное поведение пользователей и бизнес-показатели.

1. Термин: A/B тестирование (A/B testing)

A/B тестирование — это метод сравнения двух вариантов (A — контроль, B — эксперимент) путём случайного разделения пользователей на группы и измерения целевых метрик. В контексте LLM-приложений варианты — это разные версии промпта (системного сообщения, инструкции, few-shot примеров). Важно, чтобы разделение было стабильным: один и тот же пользователь всегда попадает в одну группу, иначе возникает carryover effect (перенос опыта между вариантами).

2. Зачем A/B тестировать промпты в production?

Промпт — это гиперпараметр, который напрямую влияет на поведение LLM. Изменение промпта может:

улучшить качество ответов (точность, полноту, стиль);
увеличить latency (из-за более длинного промпта);
повысить cost (больше токенов);
изменить частоту отказов (refusals) или токсичность.

Оффлайн-оценка (на тестовых датасетах) не учитывает реальное распределение запросов, контекст пользователя и долгосрочные эффекты. A/B тест в production даёт объективные данные о том, как изменение влияет на бизнес-метрики (удержание, конверсия, NPS).

3. Архитектура A/B теста для промптов

3.1 Разделение трафика

Самый распространённый способ — хэширование user_id с модулем по числу вариантов. Это гарантирует, что один user_id всегда получает один и тот же вариант, если не меняется конфигурация эксперимента.

import hashlib

def get_variant(user_id: str, experiment_name: str, num_variants: int = 2) -> str:
    hash_val = int(hashlib.md5(f"{user_id}:{experiment_name}".encode()).hexdigest(), 16)
    return chr(ord('A') + (hash_val % num_variants))

Альтернативы: случайное назначение при первой сессии (с сохранением в cookie/БД), или разделение по session_id (менее стабильно, подходит для анонимных пользователей).

3.2 Фича-флаги (feature flags)

Для управления экспериментом без деплоя используют системы фича-флагов (LaunchDarkly, Flagsmith, Split). Они позволяют:

включать/выключать эксперимент в реальном времени;
задавать процент трафика на каждую группу;
фильтровать пользователей по атрибутам (страна, устройство).

3.3 Логирование

Каждый запрос должен логироваться с полями:

user_id и session_id;
variant (A или B);
prompt (полный текст промпта, чтобы можно было воспроизвести);
response (ответ LLM);
метрики: latency, количество токенов (prompt + completion), стоимость, статус (success/error).

Логи собираются в Data Warehouse (ClickHouse, BigQuery) или OLAP-систему для последующего анализа.

4. Метрики для сравнения

Метрики делятся на качественные (оценка ответа) и количественные (производительность, стоимость).

Тип	Метрика	Описание	Способ сбора
Качественная	LLM-as-a-Judge	Оценка ответа другой LLM (например, GPT-4) по шкале 1-5	Асинхронный вызов после генерации
Качественная	User feedback	Лайк/дизлайк, оценка звездами, кнопка «полезно»	UI-элементы
Качественная	Human evaluation	Разметка ответов краудсорсерами	Оффлайн, дорого
Количественная	Latency (p50, p95, p99)	Время от запроса до первого токена	Логи сервера
Количественная	Cost per request	Стоимость токенов (prompt + completion)	Логи, цены провайдера
Количественная	Token usage	Количество токенов в ответе	Логи
Количественная	Error rate	Доля запросов с ошибкой (timeout, rate limit)	Логи
Количественная	Refusal rate	Доля ответов, где модель отказалась отвечать	Детекция по ключевым словам

Для качественных метрик важно использовать inter-rater reliability (согласованность между оценщиками), если применяется human evaluation.

5. Статистическая значимость

5.1 Выбор теста

t-test (Стьюдента) — для метрик, распределённых нормально (например, средняя latency после преобразования Box-Cox).
Mann-Whitney U test — для ненормальных распределений (медиана latency).
Bootstrap — универсальный непараметрический метод: многократно пересэмплируем данные с заменой и строим доверительный интервал для разницы средних.

5.2 Пример bootstrap на Python

import numpy as np

def bootstrap_diff(metric_A, metric_B, n_iterations=10000):
    diffs = []
    for _ in range(n_iterations):
        sample_A = np.random.choice(metric_A, size=len(metric_A), replace=True)
        sample_B = np.random.choice(metric_B, size=len(metric_B), replace=True)
        diffs.append(np.mean(sample_B) - np.mean(sample_A))
    ci_low = np.percentile(diffs, 2.5)
    ci_high = np.percentile(diffs, 97.5)
    return ci_low, ci_high

Если доверительный интервал не содержит 0, различие статистически значимо на уровне 0.05.

5.3 Multiple testing correction

Если вы проверяете много метрик одновременно, растёт вероятность ложноположительного результата. Используйте Bonferroni correction (делите alpha на количество тестов) или Benjamini-Hochberg для контроля FDR.

5.4 Длительность теста

Минимальный размер выборки рассчитывается через power analysis (например, с помощью statsmodels.stats.power). Нужно задать:

effect size (минимальный значимый прирост метрики, например, +5% в user feedback);
alpha (обычно 0.05);
power (обычно 0.8).

Для метрик с высокой дисперсией (latency) требуется больше данных, чем для бинарных (error rate).

6. Практические проблемы и их решения

Проблема	Описание	Решение
Carryover effect	Пользователь видит оба варианта в разных сессиях	Стабильное разделение по user_id; если нужно — «вымывание» (washout period)
Sample ratio mismatch	Реальное распределение отличается от 50/50 из-за ошибок в логике назначения	Мониторинг распределения; тест хи-квадрат на равномерность
Novelty effect	Пользователи реагируют на новизну, а не на качество	Продлить тест на 1-2 недели; сравнить метрики в начале и конце
Interference	Пользователи влияют друг на друга (например, в соцсетях)	Сетевой A/B тест (cluster-based randomization)
Peeking	Прекращение теста при первом значимом результате	Заранее зафиксировать длительность; использовать sequential testing

7. Инструменты для A/B тестирования промптов

Feature flag системы: LaunchDarkly, Split, Flagsmith — для управления включением и распределением.
Экспериментные платформы: Eppo, Statsig, GrowthBook — встроенные калькуляторы значимости, дашборды.
Логирование и мониторинг: ELK (Elasticsearch, Logstash, Kibana), Prometheus + Grafana, Datadog.
ML-платформы: MLflow, Weights & Biases — для логирования промптов и метрик в экспериментах.

8. Пример реализации (псевдокод)

# app.py (FastAPI)
import hashlib
import time
import logging
from fastapi import FastAPI, Request

app = FastAPI()
logger = logging.getLogger(__name__)

PROMPTS = {
    "A": "You are a helpful assistant. Answer concisely.",
    "B": "You are a helpful assistant. Answer in a friendly tone with emojis."
}

def get_variant(user_id: str) -> str:
    hash_val = int(hashlib.md5(user_id.encode()).hexdigest(), 16)
    return "A" if hash_val % 2 == 0 else "B"

@app.post("/chat")
async def chat(request: Request):
    body = await request.json()
    user_id = body["user_id"]
    variant = get_variant(user_id)
    prompt = PROMPTS[variant]
    
    start = time.time()
    response = call_llm(prompt, body["message"])  # гипотетическая функция
    latency = time.time() - start
    
    logger.info({
        "user_id": user_id,
        "variant": variant,
        "latency": latency,
        "tokens": response["usage"]["total_tokens"],
        "response": response["text"]
    })
    return {"response": response["text"]}

После накопления данных (например, в CSV) запускается скрипт анализа:

import pandas as pd
from scipy.stats import ttest_ind

df = pd.read_csv("logs.csv")
group_A = df[df.variant == "A"].latency
group_B = df[df.variant == "B"].latency
stat, p_value = ttest_ind(group_A, group_B)
print(f"p-value: {p_value:.4f}")

9. Связь с онлайн-эвалюацией

A/B тестирование — это золотой стандарт онлайн-эвалюации. В отличие от оффлайн-метрик (которые считаются на статическом датасете), онлайн-эвалюация учитывает реальное поведение пользователей, контекст и долгосрочные эффекты. Однако она дороже, требует инфраструктуры и занимает время. Обычно комбинируют: сначала оффлайн-оценка (быстро отсеять заведомо плохие промпты), затем A/B тест в production для финального решения.

10. Пет-проект для закрепления

Задача: Реализовать A/B тест для двух версий промпта чат-бота на синтетических данных.

Инструменты: Python, FastAPI (или Flask), Redis (для хранения назначений), логирование в CSV, scipy для статистики.

Шаги:

Создайте API с эндпоинтом /chat, который принимает user_id и message.
На основе user_id назначайте вариант промпта (A или B) с помощью хэширования.
В ответе возвращайте сгенерированный текст (можно использовать OpenAI API или заглушку, возвращающую фиксированный текст).
Логируйте в CSV: user_id, variant, latency, response_length, user_feedback (имитируйте случайную оценку 1-5).
После накопления 1000 записей проведите t-test для метрики user_feedback и bootstrap для latency.
Выведите, какой вариант статистически значимо лучше.

Ожидаемый результат: Скрипт, который генерирует синтетические данные, проводит A/B тест и выводит решение (принять/отклонить изменение промпта) с доверительными интервалами.

11. Связь с другими вопросами

Вопрос	Тема
135	LLM-as-a-Judge как метрика в A/B тесте
137	Онлайн-эвалюация, частью которой является A/B тест
134	Оффлайн-метрики, предшествующие A/B тесту
138	Альтернативные методы оценки (без A/B)
139	Human evaluation как компонент A/B теста

12. Навигация

Предыдущий: 135
Следующий: 137
Индекс: 00. Индекс разборов