Как тест-тайм компьютинг меняет MLOps?

Q: Краткий тезис

**[[Вики/Test-Time Compute\|Test-time computing]] ([[Вики/Test-Time Compute\|TTC]])** — это [[Вики/probability distribution\|выделение]] дополнительных вычислительных ресурсов во [[Вики/Latency\|время инференса]] для выполнения цепочек рассуждений, многократных вызовов модели или итеративных уточнений. [[Вики/Test-Time Compute\|TTC]] добавляет в [[Вики/MLOps\|MLOps]] три новых измерения: необходимость управления **[[Вики/Token budgets\|budget]] на [[Вики/промпт агента\|запрос]]**, адаптивное упр

Q: 2.1 Выделение compute budget на запрос

В традиционном [[Вики/MLOps\|MLOps]] [[Вики/compute budget\|вычислительный бюджет]] на [[Вики/forward pass\|инференс]] фиксирован (например, один [[Вики/LLM call\|вызов LLM]]). При [[Вики/Test-Time Compute\|TTC]] необходимо решить, сколько ресурсов выделить на каждый [[Вики/Prompt engineering\|запрос]]. Это порождает новые задачи:

Q: 2.3 Мониторинг cost/latency/quality trade-off

| Метрика | Описание | Единица измерения | |---------|----------|-------------------| | [[Вики/cost per request\|Cost per query]] | Стоимость вызовов API или GPU-времени | $, токены | | [[Вики/TTFT\|Latency]] | Время ответа (P50, P99) | секунды | | [[Вики/quality score\|Quality score]] | Оценка ответа (faithfulness, helpfulness) | 0–1 |

Q: 3. Новые требования к инфраструктуре MLOps

- Динамическое [[Вики/probability distribution\|выделение]] [[Вики/GPU\|GPU]]: [[Вики/Query\|запросы]] с большим бюджетом могут требовать больше памяти и времени. Нужны эластичные кластеры ([[Вики/Kubernetes\|Kubernetes]] с [[Вики/auto-scaling\|autoscaling]]). - [[Вики/Serverless compute\|Serverless compute]]: для агентных циклов удобны бессерверные функции ([[Вики/Lambda Function\|AWS Lambda]], [[Вики/Облако\|Cloud]] Run), которые масштабируются до нуля.

Q: 4. Эвалюация агентов с TTC

Q: 5. Связь с Agentic RAG

В [[Вики/Agentic RAG\|Agentic RAG]] [[Вики/agent\|агент]] может выполнять несколько итераций поиска, уточнения запроса и синтеза ответа. [[Вики/Test-Time Compute\|TTC]] здесь проявляется особенно ярко: - Агент сам решает, сколько раз обратиться к векторной БД. - Каждый поиск — это cost и latency.

Краткий тезис

Test-time computing (TTC) — это выделение дополнительных вычислительных ресурсов во время инференса для выполнения цепочек рассуждений, многократных вызовов модели или итеративных уточнений. TTC добавляет в MLOps три новых измерения: необходимость управления budget на запрос, адаптивное управление глубиной рассуждения и мониторинг cost/latency/quality trade-off. Традиционные MLOps-пайплайны, ориентированные на фиксированный инференс, становятся недостаточными — требуются динамическое выделение ресурсов, observability агентных шагов и метрики эффективности рассуждений.

1. Термин: Test-time computing (TTC)

Test-time computing (вычисления во время тестирования) — это парадигма, при которой модель во время инференса тратит больше вычислительных ресурсов на queries|сложные запросы, выполняя несколько шагов рассуждения, проверки или поиска. В отличие от традиционного однопроходного инференса, TTC позволяет модели «думать дольше» над трудными вопросами.

Примеры техник TTC:

Chain-of-Thought (CoT) — генерация промежуточных шагов рассуждения.
Self-consistency — множественные прогоны CoT с голосованием.
Tree-of-Thoughts (ToT) — древовидный поиск с оценкой ветвей.
Agentic loops — итеративные вызовы инструментов, поиска в RAG, уточнения запросов.

TTC принципиально меняет предположения MLOps: раньше стоимость инференса была фиксированной (один forward pass), теперь она может варьироваться в десятки раз в зависимости от запроса.

2. Три ключевых изменения в MLOps

Черновик выделяет три аспекта. Рассмотрим каждый подробно.

2.1 Выделение compute budget на запрос

В традиционном MLOps вычислительный бюджет на инференс фиксирован (например, один вызов LLM). При TTC необходимо решить, сколько ресурсов выделить на каждый запрос. Это порождает новые задачи:

Бюджетирование: установка лимитов на количество шагов, токенов или вызовов API.
Динамическое выделение: простые запросы получают малый бюджет, сложные — большой.
Очереди и приоритеты: запросы с высоким приоритетом могут получать больший бюджет.

Пример политики бюджета:

def get_compute_budget(query: str) -> int:
    complexity = estimate_complexity(query)  # длина, ключевые слова
    if complexity < 0.3:
        return 1  # один шаг
    elif complexity < 0.7:
        return 3
    else:
        return 5

2.2 Адаптивное управление глубиной рассуждения

Вместо жёсткого числа шагов система должна уметь останавливаться раньше, если ответ уже найден, или продолжать, если уверенность низкая. Это требует:

Механизмов early stopping на основе порога уверенности (logprob, self-evaluation).
Мониторинга прогресса: после каждого шага оценивать, улучшился ли ответ.
Динамического планирования: агент может сам решать, нужен ли ещё один шаг.

Пример адаптивного цикла:

def adaptive_inference(query, max_steps=5):
    for step in range(max_steps):
        answer, confidence = model.generate_with_confidence(query)
        log_metric("step", step, "confidence", confidence)
        if confidence > 0.9:
            break
        query = refine_query(query, answer)  # уточнение
    return answer

2.3 Мониторинг cost/latency/quality trade-off

TTC вводит трёхмерное пространство компромиссов. MLOps-инфраструктура должна собирать метрики по каждому запросу:

Метрика	Описание	Единица измерения
Cost per query	Стоимость вызовов API или GPU-времени	$, токены
Latency	Время ответа (P50, P99)	секунды
Quality score	Оценка ответа (faithfulness, helpfulness)	0–1

Типичный trade-off:

Бюджет шагов	Средняя latency	Средний cost	Quality (F1)
1	0.5 с	$0.001	0.72
3	1.8 с	$0.004	0.85
5	3.2 с	$0.009	0.89

Задача MLOps — найти оптимальную точку на кривой trade-off для бизнес-требований.

3. Новые требования к инфраструктуре MLOps

TTC требует пересмотра архитектуры MLOps:

Динамическое выделение GPU: запросы с большим бюджетом могут требовать больше памяти и времени. Нужны эластичные кластеры (Kubernetes с autoscaling).
Serverless compute: для агентных циклов удобны бессерверные функции (AWS Lambda, Cloud Run), которые масштабируются до нуля.
Очереди с приоритетами: простые запросы не должны ждать сложных. Используются очереди сообщений (RabbitMQ, Kafka) с разными топиками.
Кэширование промежуточных результатов: если несколько запросов используют одинаковые шаги (например, поиск по одной базе), результаты можно кэшировать (Redis, Memcached).
Observability: трейсинг каждого шага агента (OpenTelemetry, LangSmith), логирование cost и latency.

4. Эвалюация агентов с TTC

Обычные метрики (accuracy, F1) не учитывают затраты ресурсов. Для TTC нужны новые метрики:

Success rate — доля запросов, где агент дал правильный ответ в рамках бюджета.
Efficiency — quality / cost (например, F1 на доллар).
Robustness — способность агента не превышать бюджет на сложных запросах.
Budget utilization — среднее количество использованных шагов относительно максимума.

Пример дашборда:

+-------------------+-------+-------+-------+
| Budget (max steps)| [[1. Как бы вы спроектировали RAG-систему для 10 000 документов с разной структурой\|1]]     | [[3 Какие стратегии chunking'а вы знаете и когда какую применяете\|3]]     | [[5. Как вы оцениваете качество retrieval'а в RAG-системе\|5]]     |
+-------------------+-------+-------+-------+
| Success rate      | 0.65  | 0.82  | 0.88  |
| Avg cost          | 0.001 | 0.004 | 0.009 |
| Efficiency (F1/$) | [[720. Что такое mechanism design для multi-agent systems и как применить к LLM-агентам\|720]]   | [[212. Как работает speculative decoding с несколькими draft моделями\|212]]   | [[98. Как вы документируете RAG-систему для команды\|98]]    |
+-------------------+-------+-------+-------+

Видно, что увеличение бюджета сверх 3 шагов даёт малый прирост качества при резком падении эффективности.

5. Связь с Agentic RAG

В Agentic RAG агент может выполнять несколько итераций поиска, уточнения запроса и синтеза ответа. TTC здесь проявляется особенно ярко:

Агент сам решает, сколько раз обратиться к векторной БД.
Каждый поиск — это cost и latency.
Нужно балансировать между полнотой контекста и временем ответа.

Пример: агент получает вопрос, делает первый поиск, если уверенность низкая — переформулирует запрос и ищет снова. MLOps должен отслеживать количество поисков на запрос и их влияние на качество.

6. Проблемы и вызовы

Недетерминизм: при одинаковом бюджете результаты могут различаться из-за случайности LLM. Сложно отлаживать.
Cost explosion: без ограничений агент может генерировать тысячи токенов или делать десятки вызовов API.
Latency spikes: сложные запросы могут занимать минуты, что неприемлемо для real-time сценариев.
Сложность мониторинга: нужно агрегировать метрики по шагам, а не только по финальному ответу.

7. Будущее: test-time compute scaling laws

Исследования (OpenAI o1, DeepSeek R1) показывают, что качество рассуждений растёт с увеличением TTC, но с убывающей отдачей. MLOps будущего будет включать:

Автоматический выбор бюджета на основе предсказания сложности запроса (meta-model).
Foundation models с встроенным budget — модели, которые сами сообщают, сколько ресурсов им нужно.
Динамическое ценообразование для пользователей: простые запросы дёшевы, сложные — дороже.

Пет-проект для закрепления

Задача: Создать простого агента для вопросно-ответной системы, который адаптивно выбирает глубину рассуждения (1–5 шагов) в зависимости от сложности вопроса, и визуализировать trade-off.

Инструменты: Python, LangChain, OpenAI API (или любая LLM), Streamlit для дашборда, логирование в CSV.

Шаги:

Реализовать функцию оценки сложности вопроса (по длине, наличию вопросительных слов, ключевых терминов).
Создать агент с циклом: на каждом шаге генерировать ответ и уверенность (logprob первого токена). Если уверенность > 0.9 или достигнут max_steps — остановиться.
Для каждого запроса логировать: сложность, количество шагов, latency, cost (токены * цена), финальный ответ.
Собрать датасет из 50 вопросов разной сложности.
Построить графики: quality vs cost, latency vs steps.
Сравнить фиксированный бюджет (3 шага) с адаптивным.

Ожидаемый результат: Дашборд, показывающий, что адаптивный бюджет даёт лучшее соотношение quality/cost, чем фиксированный, и выявляющий точку насыщения.

Связь с другими вопросами

Вопрос	Тема
160	Что такое Agentic RAG и чем отличается от обычного RAG?
161	Как проектировать агентов для RAG?
162	Какие инструменты и фреймворки используются для создания агентов?
163	Как управлять памятью агентов в RAG?
164	Как агенты планируют последовательность действий?
166	Как эвалюировать агентные системы?

Краткий тезис

1. Термин: Test-time computing (TTC)

Примеры техник TTC:

Chain-of-Thought (CoT) — генерация промежуточных шагов рассуждения.
Self-consistency — множественные прогоны CoT с голосованием.
Tree-of-Thoughts (ToT) — древовидный поиск с оценкой ветвей.
Agentic loops — итеративные вызовы инструментов, поиска в RAG, уточнения запросов.

2. Три ключевых изменения в MLOps

Черновик выделяет три аспекта. Рассмотрим каждый подробно.

2.1 Выделение compute budget на запрос

Бюджетирование: установка лимитов на количество шагов, токенов или вызовов API.
Динамическое выделение: простые запросы получают малый бюджет, сложные — большой.
Очереди и приоритеты: запросы с высоким приоритетом могут получать больший бюджет.

Пример политики бюджета:

def get_compute_budget(query: str) -> int:
    complexity = estimate_complexity(query)  # длина, ключевые слова
    if complexity < 0.3:
        return 1  # один шаг
    elif complexity < 0.7:
        return 3
    else:
        return 5

2.2 Адаптивное управление глубиной рассуждения

Механизмов early stopping на основе порога уверенности (logprob, self-evaluation).
Мониторинга прогресса: после каждого шага оценивать, улучшился ли ответ.
Динамического планирования: агент может сам решать, нужен ли ещё один шаг.

Пример адаптивного цикла:

def adaptive_inference(query, max_steps=5):
    for step in range(max_steps):
        answer, confidence = model.generate_with_confidence(query)
        log_metric("step", step, "confidence", confidence)
        if confidence > 0.9:
            break
        query = refine_query(query, answer)  # уточнение
    return answer

2.3 Мониторинг cost/latency/quality trade-off

Метрика	Описание	Единица измерения
Cost per query	Стоимость вызовов API или GPU-времени	$, токены
Latency	Время ответа (P50, P99)	секунды
Quality score	Оценка ответа (faithfulness, helpfulness)	0–1

Типичный trade-off:

Бюджет шагов	Средняя latency	Средний cost	Quality (F1)
1	0.5 с	$0.001	0.72
3	1.8 с	$0.004	0.85
5	3.2 с	$0.009	0.89

Задача MLOps — найти оптимальную точку на кривой trade-off для бизнес-требований.

3. Новые требования к инфраструктуре MLOps

TTC требует пересмотра архитектуры MLOps:

Динамическое выделение GPU: запросы с большим бюджетом могут требовать больше памяти и времени. Нужны эластичные кластеры (Kubernetes с autoscaling).
Serverless compute: для агентных циклов удобны бессерверные функции (AWS Lambda, Cloud Run), которые масштабируются до нуля.
Очереди с приоритетами: простые запросы не должны ждать сложных. Используются очереди сообщений (RabbitMQ, Kafka) с разными топиками.
Кэширование промежуточных результатов: если несколько запросов используют одинаковые шаги (например, поиск по одной базе), результаты можно кэшировать (Redis, Memcached).
Observability: трейсинг каждого шага агента (OpenTelemetry, LangSmith), логирование cost и latency.

4. Эвалюация агентов с TTC

Обычные метрики (accuracy, F1) не учитывают затраты ресурсов. Для TTC нужны новые метрики:

Success rate — доля запросов, где агент дал правильный ответ в рамках бюджета.
Efficiency — quality / cost (например, F1 на доллар).
Robustness — способность агента не превышать бюджет на сложных запросах.
Budget utilization — среднее количество использованных шагов относительно максимума.

Пример дашборда:

+-------------------+-------+-------+-------+
| Budget (max steps)| [[1. Как бы вы спроектировали RAG-систему для 10 000 документов с разной структурой\|1]]     | [[3 Какие стратегии chunking'а вы знаете и когда какую применяете\|3]]     | [[5. Как вы оцениваете качество retrieval'а в RAG-системе\|5]]     |
+-------------------+-------+-------+-------+
| Success rate      | 0.65  | 0.82  | 0.88  |
| Avg cost          | 0.001 | 0.004 | 0.009 |
| Efficiency (F1/$) | [[720. Что такое mechanism design для multi-agent systems и как применить к LLM-агентам\|720]]   | [[212. Как работает speculative decoding с несколькими draft моделями\|212]]   | [[98. Как вы документируете RAG-систему для команды\|98]]    |
+-------------------+-------+-------+-------+

Видно, что увеличение бюджета сверх 3 шагов даёт малый прирост качества при резком падении эффективности.

5. Связь с Agentic RAG

Агент сам решает, сколько раз обратиться к векторной БД.
Каждый поиск — это cost и latency.
Нужно балансировать между полнотой контекста и временем ответа.

6. Проблемы и вызовы

Недетерминизм: при одинаковом бюджете результаты могут различаться из-за случайности LLM. Сложно отлаживать.
Cost explosion: без ограничений агент может генерировать тысячи токенов или делать десятки вызовов API.
Latency spikes: сложные запросы могут занимать минуты, что неприемлемо для real-time сценариев.
Сложность мониторинга: нужно агрегировать метрики по шагам, а не только по финальному ответу.

7. Будущее: test-time compute scaling laws

Автоматический выбор бюджета на основе предсказания сложности запроса (meta-model).
Foundation models с встроенным budget — модели, которые сами сообщают, сколько ресурсов им нужно.
Динамическое ценообразование для пользователей: простые запросы дёшевы, сложные — дороже.

Пет-проект для закрепления

Инструменты: Python, LangChain, OpenAI API (или любая LLM), Streamlit для дашборда, логирование в CSV.

Шаги:

Реализовать функцию оценки сложности вопроса (по длине, наличию вопросительных слов, ключевых терминов).
Создать агент с циклом: на каждом шаге генерировать ответ и уверенность (logprob первого токена). Если уверенность > 0.9 или достигнут max_steps — остановиться.
Для каждого запроса логировать: сложность, количество шагов, latency, cost (токены * цена), финальный ответ.
Собрать датасет из 50 вопросов разной сложности.
Построить графики: quality vs cost, latency vs steps.
Сравнить фиксированный бюджет (3 шага) с адаптивным.

Связь с другими вопросами

Вопрос	Тема
160	Что такое Agentic RAG и чем отличается от обычного RAG?
161	Как проектировать агентов для RAG?
162	Какие инструменты и фреймворки используются для создания агентов?
163	Как управлять памятью агентов в RAG?
164	Как агенты планируют последовательность действий?
166	Как эвалюировать агентные системы?

Как тест-тайм компьютинг меняет MLOps?

Краткий тезис

1. Термин: Test-time computing (TTC)

2. Три ключевых изменения в MLOps

2.1 Выделение compute budget на запрос

2.2 Адаптивное управление глубиной рассуждения

2.3 Мониторинг cost/latency/quality trade-off

3. Новые требования к инфраструктуре MLOps

4. Эвалюация агентов с TTC

5. Связь с Agentic RAG

6. Проблемы и вызовы

7. Будущее: test-time compute scaling laws

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Как тест-тайм компьютинг меняет MLOps?

Краткий тезис

1. Термин: Test-time computing (TTC)

2. Три ключевых изменения в MLOps

2.1 Выделение compute budget на запрос

2.2 Адаптивное управление глубиной рассуждения

2.3 Мониторинг cost/latency/quality trade-off

3. Новые требования к инфраструктуре MLOps

4. Эвалюация агентов с TTC

5. Связь с Agentic RAG

6. Проблемы и вызовы

7. Будущее: test-time compute scaling laws

Пет-проект для закрепления

Связь с другими вопросами

Навигация