Как вы сравниваете две модели, если у них разная latency (быстрая неточная vs медленная точная)?

Q: 1. Проблема: конфликт скорости и точности

В реальных ML-системах часто есть выбор между: - Быстрая неточная модель (например, лёгкий эмбеддинг, LLM|small LLM, линейный классификатор) — низкая latency, но выше вероятность ошибок. - Медленная точная [[Вики/model\|модель]] (глубокая [[Вики/neural network\|нейросеть]], large [[Вики/LLM\|LLM]], [[Вики/ensemble-based decoding\|ансамбль]]) — высокая [[Вики/TTFT\|latency]], но лучшая [[Вики/accuracy\|accuracy]].

Q: 2. Multi-objective optimization и Pareto frontier

**[[Вики/multi-objective optimization\|Multi-objective optimization]]** — [[Вики/Task\|задача]] оптимизации нескольких целевых функций одновременно. В нашем случае две цели: минимизировать [[Вики/TTFT\|latency]] и максимизировать [[Вики/accuracy\|accuracy]]. Как строить 1. Запускаем обе модели на тестовом наборе запросов.

Q: 3. Cost-adjusted accuracy

**[[Вики/Cost-adjusted accuracy\|Cost-adjusted accuracy]]** — метрика, которая объединяет качество и [[Вики/cost\|стоимость]] (время или деньги) в одно число. Простейший вариант: adjusted_accuracy = accuracy / latency Но это не всегда корректно, так как [[Вики/Latency\|latency]] и [[Вики/accuracy\|accuracy]] могут быть в разных шкалах. Лучше использовать нормированные версии или **[[Вики/accuracy\|accuracy]] per unit [[Вики/cost\|cost]]**.

Q: 4. User study (пользовательское исследование)

**[[Вики/User study\|User study]]** — [[Вики/AB testing\|эксперимент]] с реальными пользователями, где фиксируется **[[Вики/UX\|User Experience]] (UX)**. Идея: дать обеим моделям одинаковый **[[Вики/timeout\|таймаут]]** (например, 2 секунды). Если медленная [[Вики/model\|модель]] не успевает, её ответ обрезается или не показывается. Затем измеряется **[[Вики/user satisfaction\|user satisfaction]]** (например, по шкале Likert) или **[[Вики/Success rate\|task success rate]]**.

Q: 5. Scenario-based routing (сценарная маршрутизация)

Вместо выбора одной модели на все случаи, можно построить **[[Вики/Router\|router]]** ([[Вики/Router\|маршрутизатор]]), который направляет [[Вики/Query\|запросы]] к разным моделям в зависимости от сложности. Как определить сложность запроса - **[[Вики/confidence score\|Confidence score]]** быстрой модели: если она уверена в ответе (высокая вероятность), отдаём её ответ; если нет — отправляем медленной.

Q: 6. SLO-driven выбор

**SLO ([[Вики/SLO\|Service Level Objective]])** — [[Вики/SLO\|целевой уровень обслуживания]], например: «[[Вики/Latency\|p95 latency]] < 500 ms». [[Вики/p95\|p95]] — 95-й перцентиль: 95% запросов должны обрабатываться быстрее 500 ms. Подход 1. Задаём SLO на latency (например, p95 < 300 ms).

Q: 7. Дополнительные метрики и аспекты

- [[Вики/tokens per second\|Throughput]] (пропускная способность): сколько запросов в секунду может обработать модель. Если нагрузка высокая, быстрая модель может быть единственным вариантом. - [[Вики/cost per request\|Cost per query]]: для облачных моделей (API) стоимость может быть значимой. Медленная модель может быть дороже.

Краткий тезис

Сравнение моделей с разной latency — это задача многокритериальной оптимизации, где скорость и качество конфликтуют. Нельзя выбрать одну метрику; нужно учитывать компромисс. Основные подходы: построение Pareto frontier, использование cost-adjusted accuracy, проведение user study при фиксированном UX, сценарная маршрутизация (model|быстрая модель для простых запросов, медленная для сложных) и SLO-driven выбор (максимизация accuracy при соблюдении latency SLO). Выбор метода зависит от бизнес-требований и профиля нагрузки.

1. Проблема: конфликт скорости и точности

В реальных ML-системах часто есть выбор между:

Быстрая неточная модель (например, лёгкий эмбеддинг, LLM|small LLM, линейный классификатор) — низкая latency, но выше вероятность ошибок.
Медленная точная модель (глубокая нейросеть, large LLM, ансамбль) — высокая latency, но лучшая accuracy.

Сравнение «в лоб» по одной метрике (например, accuracy) некорректно, потому что игнорирует время ответа. Пользователь может предпочесть быстрый, но неидеальный ответ, если медленный ответ выходит за рамки ожидания.

Ключевые термины

Latency — время от отправки запроса до получения ответа (обычно измеряется в миллисекундах).
Accuracy — доля правильных ответов (или другая метрика качества, например F1, BLEU, faithfulness).
Trade-off — компромисс: улучшение одной метрики часто ухудшает другую.

2. Multi-objective optimization и Pareto frontier

Multi-objective optimization — задача оптимизации нескольких целевых функций одновременно. В нашем случае две цели: минимизировать latency и максимизировать accuracy.

Pareto frontier (граница Парето) — множество точек (моделей), где ни одну метрику нельзя улучшить без ухудшения другой. Модели на frontier называются Pareto-оптимальными.

Как строить

Запускаем обе модели на тестовом наборе запросов.
Для каждой модели измеряем среднюю latency и accuracy.
Наносим точки на график (latency по оси X, accuracy по оси Y).
Выделяем точки, которые не доминируются другими (нет точки с меньшей latency и большей accuracy одновременно).

Пример:

Модель	Latency (ms)	Accuracy (%)
A (быстрая)	50	85
B (медленная)	200	92
C (средняя)	100	90

Точки A, B, C — все на Pareto frontier, так как ни одна не доминирует другую. Выбор между ними — бизнес-решение.

Формула доминирования
Модель X доминирует модель Y, если latency_X ≤ latency_Y и accuracy_X ≥ accuracy_Y, и хотя бы одно неравенство строгое.

3. Cost-adjusted accuracy

Cost-adjusted accuracy — метрика, которая объединяет качество и стоимость (время или деньги) в одно число. Простейший вариант:

adjusted_accuracy = accuracy / latency

Но это не всегда корректно, так как latency и accuracy могут быть в разных шкалах. Лучше использовать нормированные версии или accuracy per unit cost.

Варианты

Accuracy per millisecond: accuracy / latency (чем выше, тем эффективнее модель по скорости).
Accuracy per dollar: если модели запускаются на платных API (например, GPT-4 дороже GPT-3.5-turbo).
Weighted sum: w1 * accuracy - w2 * latency (веса подбираются под бизнес).

Пример расчёта

Модель	Accuracy	Latency (ms)	Accuracy / Latency
Быстрая	0.85	50	0.017
Медленная	0.92	200	0.0046

По этой метрике быстрая модель выигрывает. Но если latency не критична, можно выбрать медленную.

Недостаток метрика линейна, а восприятие времени пользователем нелинейно (например, разница между 50 и 100 ms менее заметна, чем между 1000 и 2000 ms).

4. User study (пользовательское исследование)

User study — эксперимент с реальными пользователями, где фиксируется User Experience (UX). Идея: дать обеим моделям одинаковый таймаут (например, 2 секунды). Если медленная модель не успевает, её ответ обрезается или не показывается. Затем измеряется user satisfaction (например, по шкале Likert) или task success rate.

Процедура

Выбрать сценарий (например, ответ на вопрос по документам).
Разделить пользователей на две группы: одна получает ответ от быстрой модели, другая — от медленной (с таймаутом).
После каждого запроса пользователь оценивает ответ (полезность, понятность).
Сравнить средние оценки.

Плюсы учитывает реальное восприятие, а не абстрактные метрики.
Минусы дорого, требует много пользователей, сложно контролировать confounding factors.

Результат если пользователи одинаково оценивают обе модели (или быстрая получает выше оценки из-за скорости), то быстрая модель предпочтительнее, даже если её accuracy ниже.

5. Scenario-based routing (сценарная маршрутизация)

Вместо выбора одной модели на все случаи, можно построить router (маршрутизатор), который направляет запросы к разным моделям в зависимости от сложности.

Как определить сложность запроса

Confidence score быстрой модели: если она уверена в ответе (высокая вероятность), отдаём её ответ; если нет — отправляем медленной.
Классификатор сложности: обучить модель предсказывать, какой запрос требует высокой точности (например, юридические вопросы vs. простые факты).
Heuristic rules: длина запроса, наличие ключевых слов, количество сущностей.

Архитектура

Запрос → Router → [Быстрая модель] или [Медленная модель] → Ответ

Пример реализации на Python (псевдокод):

def route(query):
    # Быстрая модель даёт ответ и confidence
    fast_answer, confidence = fast_model(query)
    if confidence > 0.9:
        return fast_answer
    else:
        return slow_model(query)

Преимущества средняя latency ниже, чем у медленной модели, а accuracy выше, чем у быстрой (на сложных запросах).
Недостатки нужно обучать/настраивать router, возможны ошибки классификации.

6. SLO-driven выбор

SLO (Service Level Objective) — целевой уровень обслуживания, например: «p95 latency < 500 ms». p95 — 95-й перцентиль: 95% запросов должны обрабатываться быстрее 500 ms.

Подход

Задаём SLO на latency (например, p95 < 300 ms).
Измеряем latency обеих моделей на representative нагрузке.
Выбираем модель с максимальной accuracy среди тех, что удовлетворяют SLO.

Пример:

Быстрая модель: p95 = 150 ms, accuracy = 85%.
Медленная модель: p95 = 600 ms, accuracy = 92%.
SLO: p95 < 300 ms → выбираем быструю модель.

Если ни одна модель не удовлетворяет SLO, нужно либо ослабить SLO, либо оптимизировать модель (квантование, прунинг, аппаратное ускорение).

Дополнительно можно использовать SLO violation rate — доля запросов, превышающих порог. Выбираем модель с минимальным violation rate при заданной accuracy.

7. Дополнительные метрики и аспекты

Throughput (пропускная способность): сколько запросов в секунду может обработать модель. Если нагрузка высокая, быстрая модель может быть единственным вариантом.
Cost per query: для облачных моделей (API) стоимость может быть значимой. Медленная модель может быть дороже.
User retention: долгосрочная метрика — если пользователи уходят из-за медленных ответов, даже высокая accuracy не спасёт.
Fairness: быстрая модель может хуже работать на underrepresented группах запросов.

Таблица сравнения подходов

Подход	Когда использовать	Плюсы	Минусы
Pareto frontier	Стратегический выбор на основе trade-off	Наглядно, объективно	Не даёт единственного ответа
Cost-adjusted accuracy	Быстрая оценка эффективности	Простота	Линейность, не учитывает распределение
User study	Критически важный UX	Реалистичность	Дорого, долго
Scenario routing	Разнородные запросы	Гибкость, баланс	Сложность реализации
SLO-driven	Чёткие требования к latency	Прозрачность, привязка к бизнесу	Зависит от качества SLO

8. Практический пример: сравнение GPT-3.5-turbo и GPT-4

Допустим, мы сравниваем две модели для чат-бота:

GPT-3.5-turbo (быстрая): средняя latency 500 ms, accuracy (по human eval) 80%.
GPT-4 (медленная): средняя latency 2000 ms, accuracy 92%.

Шаги:

Pareto frontier: обе точки не доминируют друг друга.
Cost-adjusted accuracy: GPT-3.5: 0.80/0.5 = 1.6; GPT-4: 0.92/2.0 = 0.46 → быстрая выигрывает.
User study: даём таймаут 1500 ms. GPT-4 часто не успевает → пользователи оценивают быструю модель выше.
Scenario routing: для простых вопросов (например, «какой сегодня день?») используем GPT-3.5, для сложных (анализ контракта) — GPT-4.
SLO-driven: SLO p95 < 1000 ms. GPT-3.5 удовлетворяет, GPT-4 нет → выбираем GPT-3.5.

Вывод в данном случае быстрая модель предпочтительнее, если latency критична.

9. Инструменты для измерения и мониторинга

Профилирование latency: time в Python, cProfile, middleware в веб-фреймворках (например, starlette.middleware).
Мониторинг в production: Prometheus + Grafana для сбора p50, p95, p99 latency.
A/B тестирование: разделение трафика (например, 50% на быструю, 50% на медленную) с записью метрик.
Оффлайн-оценка accuracy: размеченный датасет, метрики (accuracy, F1, BLEU, ROUGE).

Пример кода для замера latency

import time

def measure_latency(model, query, n=100):
    latencies = []
    for _ in range(n):
        start = time.perf_counter()
        model(query)
        end = time.perf_counter()
        latencies.append((end - start) * 1000)  # ms
    return {
        'mean': sum(latencies)/n,
        'p95': sorted(latencies)[int(n*0.95)]
    }

Пет-проект для закрепления

Задача Разработать систему A/B сравнения двух моделей (быстрая неточная vs медленная точная) для задачи ответов на вопросы по документам.

Инструменты

Python, FastAPI (для API), Docker.
Hugging Face Transformers (например, distilbert-base-uncased как быстрая, bert-large-uncased как медленная).
Redis для кэширования ответов быстрой модели.
Prometheus + Grafana для мониторинга latency.
Датасет SQuAD или собственный.

Шаги:

Развернуть две модели как микросервисы.
Написать роутер, который по confidence быстрой модели решает, отправлять ли запрос медленной.
Реализовать сбор метрик: latency каждого запроса, accuracy (по золотому стандарту), confidence.
Построить Pareto frontier и рассчитать cost-adjusted accuracy.
Провести нагрузочное тестирование (например, с помощью locust) и проверить SLO.
Сравнить результаты и написать отчёт.

Ожидаемый результат Вы получите практическое понимание trade-off между скоростью и качеством, научитесь строить роутер и интерпретировать метрики.

Связь с другими вопросами

Вопрос	Тема
7	Как вы уменьшаете latency RAG-системы?
5	Как оцениваете качество retrieval?
10	Что такое Self-RAG и когда его использовать?
8	Как обрабатываете запросы без ответа в документах?
6	Как обновляете документы в RAG?
4	Какие стратегии chunking'а знаете?

Краткий тезис

1. Проблема: конфликт скорости и точности

В реальных ML-системах часто есть выбор между:

Быстрая неточная модель (например, лёгкий эмбеддинг, LLM|small LLM, линейный классификатор) — низкая latency, но выше вероятность ошибок.
Медленная точная модель (глубокая нейросеть, large LLM, ансамбль) — высокая latency, но лучшая accuracy.

Ключевые термины

Latency — время от отправки запроса до получения ответа (обычно измеряется в миллисекундах).
Accuracy — доля правильных ответов (или другая метрика качества, например F1, BLEU, faithfulness).
Trade-off — компромисс: улучшение одной метрики часто ухудшает другую.

2. Multi-objective optimization и Pareto frontier

Как строить

Запускаем обе модели на тестовом наборе запросов.
Для каждой модели измеряем среднюю latency и accuracy.
Наносим точки на график (latency по оси X, accuracy по оси Y).
Выделяем точки, которые не доминируются другими (нет точки с меньшей latency и большей accuracy одновременно).

Пример:

Модель	Latency (ms)	Accuracy (%)
A (быстрая)	50	85
B (медленная)	200	92
C (средняя)	100	90

Точки A, B, C — все на Pareto frontier, так как ни одна не доминирует другую. Выбор между ними — бизнес-решение.

3. Cost-adjusted accuracy

adjusted_accuracy = accuracy / latency

Варианты

Accuracy per millisecond: accuracy / latency (чем выше, тем эффективнее модель по скорости).
Accuracy per dollar: если модели запускаются на платных API (например, GPT-4 дороже GPT-3.5-turbo).
Weighted sum: w1 * accuracy - w2 * latency (веса подбираются под бизнес).

Пример расчёта

Модель	Accuracy	Latency (ms)	Accuracy / Latency
Быстрая	0.85	50	0.017
Медленная	0.92	200	0.0046

По этой метрике быстрая модель выигрывает. Но если latency не критична, можно выбрать медленную.

4. User study (пользовательское исследование)

Процедура

Выбрать сценарий (например, ответ на вопрос по документам).
Разделить пользователей на две группы: одна получает ответ от быстрой модели, другая — от медленной (с таймаутом).
После каждого запроса пользователь оценивает ответ (полезность, понятность).
Сравнить средние оценки.

5. Scenario-based routing (сценарная маршрутизация)

Как определить сложность запроса

Confidence score быстрой модели: если она уверена в ответе (высокая вероятность), отдаём её ответ; если нет — отправляем медленной.
Классификатор сложности: обучить модель предсказывать, какой запрос требует высокой точности (например, юридические вопросы vs. простые факты).
Heuristic rules: длина запроса, наличие ключевых слов, количество сущностей.

Архитектура

Запрос → Router → [Быстрая модель] или [Медленная модель] → Ответ

Пример реализации на Python (псевдокод):

def route(query):
    # Быстрая модель даёт ответ и confidence
    fast_answer, confidence = fast_model(query)
    if confidence > 0.9:
        return fast_answer
    else:
        return slow_model(query)

6. SLO-driven выбор

Подход

Задаём SLO на latency (например, p95 < 300 ms).
Измеряем latency обеих моделей на representative нагрузке.
Выбираем модель с максимальной accuracy среди тех, что удовлетворяют SLO.

Пример:

Быстрая модель: p95 = 150 ms, accuracy = 85%.
Медленная модель: p95 = 600 ms, accuracy = 92%.
SLO: p95 < 300 ms → выбираем быструю модель.

7. Дополнительные метрики и аспекты

Throughput (пропускная способность): сколько запросов в секунду может обработать модель. Если нагрузка высокая, быстрая модель может быть единственным вариантом.
Cost per query: для облачных моделей (API) стоимость может быть значимой. Медленная модель может быть дороже.
User retention: долгосрочная метрика — если пользователи уходят из-за медленных ответов, даже высокая accuracy не спасёт.
Fairness: быстрая модель может хуже работать на underrepresented группах запросов.

Таблица сравнения подходов

Подход	Когда использовать	Плюсы	Минусы
Pareto frontier	Стратегический выбор на основе trade-off	Наглядно, объективно	Не даёт единственного ответа
Cost-adjusted accuracy	Быстрая оценка эффективности	Простота	Линейность, не учитывает распределение
User study	Критически важный UX	Реалистичность	Дорого, долго
Scenario routing	Разнородные запросы	Гибкость, баланс	Сложность реализации
SLO-driven	Чёткие требования к latency	Прозрачность, привязка к бизнесу	Зависит от качества SLO

8. Практический пример: сравнение GPT-3.5-turbo и GPT-4

Допустим, мы сравниваем две модели для чат-бота:

GPT-3.5-turbo (быстрая): средняя latency 500 ms, accuracy (по human eval) 80%.
GPT-4 (медленная): средняя latency 2000 ms, accuracy 92%.

Шаги:

Pareto frontier: обе точки не доминируют друг друга.
Cost-adjusted accuracy: GPT-3.5: 0.80/0.5 = 1.6; GPT-4: 0.92/2.0 = 0.46 → быстрая выигрывает.
User study: даём таймаут 1500 ms. GPT-4 часто не успевает → пользователи оценивают быструю модель выше.
Scenario routing: для простых вопросов (например, «какой сегодня день?») используем GPT-3.5, для сложных (анализ контракта) — GPT-4.
SLO-driven: SLO p95 < 1000 ms. GPT-3.5 удовлетворяет, GPT-4 нет → выбираем GPT-3.5.

Вывод в данном случае быстрая модель предпочтительнее, если latency критична.

9. Инструменты для измерения и мониторинга

Профилирование latency: time в Python, cProfile, middleware в веб-фреймворках (например, starlette.middleware).
Мониторинг в production: Prometheus + Grafana для сбора p50, p95, p99 latency.
A/B тестирование: разделение трафика (например, 50% на быструю, 50% на медленную) с записью метрик.
Оффлайн-оценка accuracy: размеченный датасет, метрики (accuracy, F1, BLEU, ROUGE).

Пример кода для замера latency

import time

def measure_latency(model, query, n=100):
    latencies = []
    for _ in range(n):
        start = time.perf_counter()
        model(query)
        end = time.perf_counter()
        latencies.append((end - start) * 1000)  # ms
    return {
        'mean': sum(latencies)/n,
        'p95': sorted(latencies)[int(n*0.95)]
    }

Пет-проект для закрепления

Инструменты

Python, FastAPI (для API), Docker.
Hugging Face Transformers (например, distilbert-base-uncased как быстрая, bert-large-uncased как медленная).
Redis для кэширования ответов быстрой модели.
Prometheus + Grafana для мониторинга latency.
Датасет SQuAD или собственный.

Шаги:

Развернуть две модели как микросервисы.
Написать роутер, который по confidence быстрой модели решает, отправлять ли запрос медленной.
Реализовать сбор метрик: latency каждого запроса, accuracy (по золотому стандарту), confidence.
Построить Pareto frontier и рассчитать cost-adjusted accuracy.
Провести нагрузочное тестирование (например, с помощью locust) и проверить SLO.
Сравнить результаты и написать отчёт.

Связь с другими вопросами

Вопрос	Тема
7	Как вы уменьшаете latency RAG-системы?
5	Как оцениваете качество retrieval?
10	Что такое Self-RAG и когда его использовать?
8	Как обрабатываете запросы без ответа в документах?
6	Как обновляете документы в RAG?
4	Какие стратегии chunking'а знаете?

Как вы сравниваете две модели, если у них разная latency (быстрая неточная vs медленная точная)?

Краткий тезис

1. Проблема: конфликт скорости и точности

2. Multi-objective optimization и Pareto frontier

3. Cost-adjusted accuracy

4. User study (пользовательское исследование)

5. Scenario-based routing (сценарная маршрутизация)

6. SLO-driven выбор

7. Дополнительные метрики и аспекты

8. Практический пример: сравнение GPT-3.5-turbo и GPT-4

9. Инструменты для измерения и мониторинга

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Как вы сравниваете две модели, если у них разная latency (быстрая неточная vs медленная точная)?

Краткий тезис

1. Проблема: конфликт скорости и точности

2. Multi-objective optimization и Pareto frontier

3. Cost-adjusted accuracy

4. User study (пользовательское исследование)

5. Scenario-based routing (сценарная маршрутизация)

6. SLO-driven выбор

7. Дополнительные метрики и аспекты

8. Практический пример: сравнение GPT-3.5-turbo и GPT-4

9. Инструменты для измерения и мониторинга

Пет-проект для закрепления

Связь с другими вопросами

Навигация