Как вы делаете streaming в production с учетом network limitations?

Q: 1. Что такое streaming и зачем он нужен в production

Зачем - Улучшение UX: [[Вики/multi-tenant\|пользователь]] видит текст по мере генерации, а не ждёт полного ответа ([[Вики/Perceived latency\|perceived latency]] снижается с секунд до миллисекунд). - Ранняя обратная связь: можно прервать генерацию, если ответ пошёл не туда. - Эффективность сети: при больших ответах (например, генерация кода) клиент может начать обрабатывать первые токены, не дожидаясь конца.

Q: 2. Протоколы для streaming: SSE vs WebSocket

| Характеристика | **SSE (Server-Sent Events)** | [[Вики/WebSocket\|WebSocket]] | |----------------|------------------------------|---------------| | Направление | Только сервер → клиент | Двунаправленный | | Протокол | HTTP (текстовый поток) | Собственный протокол поверх TCP | | Поддержка браузерами | Нативная (EventSource API) | Нативная (WebSocket API) |

Q: 3. Размер чанка (chunk size)

**Chunk size** — количество токенов, отправляемых в одном сообщении. Влияет на UX и сетевой overhead. | Размер | Преимущества | Недостатки | |--------|--------------|------------| | **1 токен** | Максимальная плавность, пользователь видит каждый токен сразу | Высокий overhead (HTTP-заголовки, TCP-пакеты), нагрузка на сеть и CPU |

Q: 4. Управление буфером (buffer management)

- Собирать чанки оптимального размера (например, накапливать до 5 токенов). - Сглаживать неравномерность генерации (LLM может генерировать с разной скоростью). - Применять сжатие перед отправкой. Правила управления - Не накапливать больше N токенов (например, 100), чтобы не увеличивать latency.

Q: 5. Backpressure (обратное давление)

**Backpressure** — механизм, при котором сервер замедляет генерацию, если клиент не успевает обрабатывать чанки. Без backpressure сервер может переполнить буфер клиента или сетевой канал, что приведёт к потере данных или таймаутам. Как реализовать - TCP backpressure: если клиент медленно читает, TCP-стек сам замедлит отправку (через управление окном). Но это не всегда эффективно.

Q: 6. Сжатие (gzip) для SSE

- Прокси и CDN: многие прокси (nginx, Cloudflare) умеют сжимать SSE-потоки на лету. - Chunked transfer encoding: SSE обычно использует chunked encoding, и gzip применяется к каждому чанку отдельно или ко всему потоку. - Настройка: на стороне сервера включить gzip для `text/event-stream`. В FastAPI: `middleware` или настройка uvicorn.

Q: 7.1 Высокая задержка (high latency)

- Использовать [[Вики/WebSocket\|WebSocket]] вместо SSE (меньше overhead на установку соединения для каждого чанка). - Увеличить размер чанка (10–20 токенов), чтобы уменьшить количество пакетов. - Применить TCP_NODELAY (отключить алгоритм Нейгла) для отправки чанков без задержки.

Q: 7.2 Низкая пропускная способность (low bandwidth)

- Сжатие gzip обязательно. - Уменьшить размер чанка (1–2 токена) — кажется парадоксальным, но при низком bandwidth лучше отправлять маленькие чанки, чтобы пользователь видел прогресс, даже если общее время больше. - Использовать binary framing в WebSocket для уменьшения overhead.

Краткий тезис

Streaming в production — это передача токенов от LLM к клиенту по частям, чтобы улучшить UX (пользователь видит ответ постепенно) и снизить perceived latency. Ключевые ограничения сети: пропускная способность, задержка (latency), потеря пакетов и нестабильность соединения. Для production применяют Server-Sent Events (SSE) или WebSocket, выбирают оптимальный размер чанка (1–5 токенов), управляют буфером, реализуют backpressure (обратное давление) и сжатие (gzip). В контексте Agentic RAG streaming усложняется необходимостью передавать промежуточные шаги агента (мысли, вызовы инструментов) и финальный ответ.

1. Что такое streaming и зачем он нужен в production

Streaming (потоковая передача) — это механизм, при котором сервер отправляет данные клиенту не одним большим ответом, а последовательными порциями (чанками). В контексте LLM это означает, что модель начинает генерировать ответ и сразу отправляет каждый новый токен или группу токенов клиенту.

Зачем

Улучшение UX: пользователь видит текст по мере генерации, а не ждёт полного ответа (perceived latency снижается с секунд до миллисекунд).
Ранняя обратная связь: можно прервать генерацию, если ответ пошёл не туда.
Эффективность сети: при больших ответах (например, генерация кода) клиент может начать обрабатывать первые токены, не дожидаясь конца.

Проблемы сети (network limitations):

Пропускная способность (bandwidth): ограничение на количество данных в единицу времени. Слишком частые мелкие чанки создают overhead заголовков.
Задержка (latency): время прохождения пакета от сервера к клиенту. Высокая latency делает каждый чанк заметно задержанным.
Потеря пакетов и нестабильность: на мобильных сетях или при плохом соединении чанки могут теряться или приходить не по порядку.
TCP slow start: начальная фаза TCP-соединения может ограничивать скорость передачи первых чанков.

2. Протоколы для streaming: SSE vs WebSocket

Характеристика	SSE (Server-Sent Events)	WebSocket
Направление	Только сервер → клиент	Двунаправленный
Протокол	HTTP (текстовый поток)	Собственный протокол поверх TCP
Поддержка браузерами	Нативная (EventSource API)	Нативная (WebSocket API)
Overhead	Низкий (один HTTP-заголовок)	Выше (рукопожатие, фреймы)
Автоматическое переподключение	Встроено (EventSource)	Нужно реализовывать вручную
Сложность	Простая	Средняя
Потоковая передача бинарных данных	Нет (только текст)	Да
Примеры использования	Чат-боты, уведомления, ленты	Игры, совместное редактирование, real-time приложения

Рекомендация для LLM streaming

SSE — простой и надёжный выбор для большинства случаев (чат-боты, RAG). Легко встраивается в существующий HTTP-стек (FastAPI, Flask).
WebSocket — когда нужна двунаправленная связь (например, агент отправляет запрос на выполнение инструмента и ждёт ответа от клиента) или требуется передавать бинарные данные (аудио, изображения).

Пример SSE на FastAPI

from fastapi import FastAPI, Request
from fastapi.responses import StreamingResponse
import asyncio

app = FastAPI()

async def token_generator(prompt: str):
    # Симуляция генерации токенов LLM
    for token in ["Привет", ", ", "как", " ", "дела", "?"]:
        yield f"data: {token}\n\n"
        await asyncio.sleep(0.1)

@app.get("/stream")
async def stream_endpoint(prompt: str):
    return StreamingResponse(token_generator(prompt), media_type="text/event-stream")

3. Размер чанка (chunk size)

Chunk size — количество токенов, отправляемых в одном сообщении. Влияет на UX и сетевой overhead.

Размер	Преимущества	Недостатки
1 токен	Максимальная плавность, пользователь видит каждый токен сразу	Высокий overhead (HTTP-заголовки, TCP-пакеты), нагрузка на сеть и CPU
3–5 токенов	Хороший баланс между плавностью и overhead	Небольшая задержка перед появлением первого токена
10+ токенов	Минимальный overhead, эффективное сжатие	Заметная задержка, ухудшение UX

Практические рекомендации

Для production обычно выбирают 3–5 токенов как компромисс.
Можно динамически менять размер: первые чанки отправлять по 1 токену (чтобы пользователь сразу увидел начало), затем увеличивать до 5–10.
Размер чанка также зависит от средней длины ответа: для коротких ответов (1–2 предложения) лучше 1 токен, для длинных (код, статьи) — 5–10.

4. Управление буфером (buffer management)

Buffer — временное хранилище сгенерированных токенов перед отправкой. Нужен, чтобы:

Собирать чанки оптимального размера (например, накапливать до 5 токенов).
Сглаживать неравномерность генерации (LLM может генерировать с разной скоростью).
Применять сжатие перед отправкой.

Правила управления

Не накапливать больше N токенов (например, 100), чтобы не увеличивать latency.
Flush по таймеру: если токены не накопились до нужного размера за T мс (например, 50 мс), отправляем то, что есть.
Flush по окончанию генерации: при получении сигнала <eos> (end of stream) отправляем остаток.

Пример реализации буфера

class TokenBuffer:
    def __init__(self, max_tokens=5, flush_interval_ms=50):
        self.buffer = []
        self.max_tokens = max_tokens
        self.flush_interval = flush_interval_ms / 1000.0

    async def add_token(self, token: str):
        self.buffer.append(token)
        if len(self.buffer) >= self.max_tokens:
            await self.flush()

    async def flush(self):
        if self.buffer:
            chunk = "".join(self.buffer)
            self.buffer.clear()
            # Отправка chunk через SSE/WebSocket
            await send_chunk(chunk)

5. Backpressure (обратное давление)

Backpressure — механизм, при котором сервер замедляет генерацию, если клиент не успевает обрабатывать чанки. Без backpressure сервер может переполнить буфер клиента или сетевой канал, что приведёт к потере данных или таймаутам.

Как реализовать

TCP backpressure: если клиент медленно читает, TCP-стек сам замедлит отправку (через управление окном). Но это не всегда эффективно.
Application-level backpressure: сервер отслеживает, сколько чанков отправлено, но не подтверждено клиентом. Если количество неподтверждённых чанков превышает лимит (например, 100), приостанавливаем генерацию.
В WebSocket: можно использовать фреймы с подтверждением (ack) или просто не отправлять новые сообщения, пока не получим сигнал от клиента.
В SSE: проще всего — ограничить скорость отправки (rate limiting) на стороне сервера.

Пример с asyncio.Queue

import asyncio

async def producer(queue: asyncio.Queue, max_queue_size=10):
    for token in generate_tokens():
        if queue.qsize() >= max_queue_size:
            await asyncio.sleep(0.1)  # backpressure: ждём, пока клиент заберёт
        await queue.put(token)

async def consumer(queue: asyncio.Queue):
    while True:
        token = await queue.get()
        await send_to_client(token)

6. Сжатие (gzip) для SSE

gzip compression — стандартный метод сжатия HTTP-ответов. Для SSE он работает, но с особенностями:

Прокси и CDN: многие прокси (nginx, Cloudflare) умеют сжимать SSE-потоки на лету.
Chunked transfer encoding: SSE обычно использует chunked encoding, и gzip применяется к каждому чанку отдельно или ко всему потоку.
Настройка: на стороне сервера включить gzip для text/event-stream. В FastAPI: middleware или настройка uvicorn.

Плюсы сжатия

Уменьшение объёма передаваемых данных (особенно для длинных ответов с повторяющимися токенами).
Снижение нагрузки на сеть.

Минусы

Дополнительная задержка на сжатие/распаковку (обычно незначительная).
Не все клиенты поддерживают gzip для SSE (но большинство современных браузеров — да).

Рекомендация включать gzip, если средний размер ответа > 10 КБ, и клиент поддерживает сжатие.

7. Учёт network limitations в production

7.1 Высокая задержка (high latency)

Использовать WebSocket вместо SSE (меньше overhead на установку соединения для каждого чанка).
Увеличить размер чанка (10–20 токенов), чтобы уменьшить количество пакетов.
Применить TCP_NODELAY (отключить алгоритм Нейгла) для отправки чанков без задержки.

7.2 Низкая пропускная способность (low bandwidth)

Сжатие gzip обязательно.
Уменьшить размер чанка (1–2 токена) — кажется парадоксальным, но при низком bandwidth лучше отправлять маленькие чанки, чтобы пользователь видел прогресс, даже если общее время больше.
Использовать binary framing в WebSocket для уменьшения overhead.

7.3 Потеря пакетов и нестабильность

SSE имеет встроенное переподключение (EventSource автоматически пересоединяется при разрыве).
WebSocket требует реализации retry с exponential backoff.
Добавить sequence numbers в чанки, чтобы клиент мог обнаружить пропуски и запросить повторную отправку.
Для критичных приложений — использовать acknowledgment (клиент подтверждает получение каждого чанка, сервер повторяет потерянные).

7.4 Мобильные сети (3G/4G/5G)

Реализовать adaptive chunk size: на основе измерения RTT (round-trip time) и скорости соединения динамически менять размер чанка.
Использовать service worker на клиенте для буферизации и восстановления соединения.

8. Мониторинг и observability streaming

Что отслеживать

Latency per chunk: время от генерации токена до отправки клиенту.
Chunk size distribution: средний размер чанка, количество чанков в секунду.
Network errors: количество разрывов соединения, таймаутов.
Backpressure events: сколько раз сервер приостанавливал генерацию.
Client-side metrics: время до первого токена (TTFT), время до последнего токена (TTLT).

Инструменты

Prometheus + Grafana для сбора метрик.
OpenTelemetry для трассировки каждого чанка.
Логирование с correlation ID для каждого стрима.

9. Особенности streaming в Agentic RAG

В Agentic RAG агент может выполнять несколько шагов: думать, вызывать инструменты, получать результаты, генерировать финальный ответ. Streaming усложняется:

Промежуточные шаги: нужно передавать клиенту не только токены финального ответа, но и мысли агента, результаты вызовов инструментов.
Формат сообщений: использовать структурированные чанки (JSON), где указан тип (thought, tool_call, tool_result, token).
Управление состоянием: клиент должен понимать, на каком шаге находится агент, чтобы корректно отображать прогресс.
Backpressure на уровне агента: если клиент медленный, агент должен приостановить выполнение следующего шага.

Пример структуры чанка

{"type": "thought", "content": "Нужно найти информацию о погоде"}
{"type": "tool_call", "tool": "get_weather", "args": {"city": "Москва"}}
{"type": "tool_result", "content": "Температура: 20°C"}
{"type": "token", "content": "Согласно"}
{"type": "token", "content": "данным"}
...
{"type": "end"}

10. Пример production-решения на FastAPI + SSE с backpressure и сжатием

from fastapi import FastAPI, Request
from fastapi.responses import StreamingResponse
from fastapi.middleware.gzip import GZipMiddleware
import asyncio
import time

app = FastAPI()
app.add_middleware(GZipMiddleware, minimum_size=1000)  # сжатие для ответов > 1KB

class StreamingBuffer:
    def __init__(self, max_tokens=5, flush_interval=0.05):
        self.buffer = []
        self.max_tokens = max_tokens
        self.flush_interval = flush_interval
        self.last_flush = time.time()

    async def add(self, token: str, send_func):
        self.buffer.append(token)
        now = time.time()
        if len(self.buffer) >= self.max_tokens or (now - self.last_flush) >= self.flush_interval:
            await self.flush(send_func)

    async def flush(self, send_func):
        if self.buffer:
            chunk = "".join(self.buffer)
            self.buffer.clear()
            self.last_flush = time.time()
            await send_func(chunk)

async def generate(prompt: str, request: Request):
    buffer = StreamingBuffer(max_tokens=3)
    # Симуляция LLM с backpressure
    for token in simulate_llm(prompt):
        # Проверяем, не закрыл ли клиент соединение
        if await request.is_disconnected():
            break
        # Backpressure: ждём, если клиент медленный (имитация)
        await asyncio.sleep(0.01)
        await buffer.add(token, lambda chunk: send_sse(chunk))
    await buffer.flush(lambda chunk: send_sse(chunk))

async def send_sse(chunk: str):
    # В реальности отправка через StreamingResponse
    yield f"data: {chunk}\n\n"

@app.get("/stream")
async def stream(prompt: str, request: Request):
    return StreamingResponse(
        generate(prompt, request),
        media_type="text/event-stream",
        headers={"Cache-Control": "no-cache", "Connection": "keep-alive"}
    )

Пет-проект для закрепления

Задача Реализовать streaming чат-бота с Agentic RAG, который поддерживает SSE, адаптивный размер чанка и backpressure.

Инструменты

Python, FastAPI, asyncio
LangChain или простой агент с вызовом инструментов
Redis для хранения состояния сессии
Клиент на JavaScript (EventSource)

Шаги:

Создайте FastAPI-приложение с SSE-эндпоинтом /chat/stream.
Реализуйте агента, который на каждый запрос выполняет: думает → вызывает инструмент (поиск в векторной БД) → генерирует ответ.
Для каждого шага отправляйте структурированный JSON-чанк (type: thought/tool_call/tool_result/token).
Добавьте буфер с динамическим размером чанка: первые 3 токена отправляйте по 1, затем по 5.
Реализуйте backpressure: если очередь неподтверждённых чанков превышает 20, приостанавливайте генерацию.
На клиенте (HTML+JS) подпишитесь на EventSource, отображайте мысли агента в отдельном блоке, а токены — в основном.
Добавьте метрики: время до первого токена, количество чанков, ошибки сети.

Ожидаемый результат Работающий чат-бот, который стримит ответ с промежуточными шагами, адаптируется к скорости клиента и не падает при плохом соединении.

Связь с другими вопросами

Вопрос	Тема
448	Как спроектировать streaming для Agentic RAG
450	Как обрабатывать ошибки при streaming
447	Как уменьшить latency в RAG-системе
446	Как балансировать нагрузку между LLM инстансами
452	Как логировать и мониторить streaming
445	Как реализовать fallback при недоступности LLM

Краткий тезис

1. Что такое streaming и зачем он нужен в production

Зачем

Улучшение UX: пользователь видит текст по мере генерации, а не ждёт полного ответа (perceived latency снижается с секунд до миллисекунд).
Ранняя обратная связь: можно прервать генерацию, если ответ пошёл не туда.
Эффективность сети: при больших ответах (например, генерация кода) клиент может начать обрабатывать первые токены, не дожидаясь конца.

Проблемы сети (network limitations):

Пропускная способность (bandwidth): ограничение на количество данных в единицу времени. Слишком частые мелкие чанки создают overhead заголовков.
Задержка (latency): время прохождения пакета от сервера к клиенту. Высокая latency делает каждый чанк заметно задержанным.
Потеря пакетов и нестабильность: на мобильных сетях или при плохом соединении чанки могут теряться или приходить не по порядку.
TCP slow start: начальная фаза TCP-соединения может ограничивать скорость передачи первых чанков.

2. Протоколы для streaming: SSE vs WebSocket

Характеристика	SSE (Server-Sent Events)	WebSocket
Направление	Только сервер → клиент	Двунаправленный
Протокол	HTTP (текстовый поток)	Собственный протокол поверх TCP
Поддержка браузерами	Нативная (EventSource API)	Нативная (WebSocket API)
Overhead	Низкий (один HTTP-заголовок)	Выше (рукопожатие, фреймы)
Автоматическое переподключение	Встроено (EventSource)	Нужно реализовывать вручную
Сложность	Простая	Средняя
Потоковая передача бинарных данных	Нет (только текст)	Да
Примеры использования	Чат-боты, уведомления, ленты	Игры, совместное редактирование, real-time приложения

Рекомендация для LLM streaming

SSE — простой и надёжный выбор для большинства случаев (чат-боты, RAG). Легко встраивается в существующий HTTP-стек (FastAPI, Flask).
WebSocket — когда нужна двунаправленная связь (например, агент отправляет запрос на выполнение инструмента и ждёт ответа от клиента) или требуется передавать бинарные данные (аудио, изображения).

Пример SSE на FastAPI

from fastapi import FastAPI, Request
from fastapi.responses import StreamingResponse
import asyncio

app = FastAPI()

async def token_generator(prompt: str):
    # Симуляция генерации токенов LLM
    for token in ["Привет", ", ", "как", " ", "дела", "?"]:
        yield f"data: {token}\n\n"
        await asyncio.sleep(0.1)

@app.get("/stream")
async def stream_endpoint(prompt: str):
    return StreamingResponse(token_generator(prompt), media_type="text/event-stream")

3. Размер чанка (chunk size)

Chunk size — количество токенов, отправляемых в одном сообщении. Влияет на UX и сетевой overhead.

Размер	Преимущества	Недостатки
1 токен	Максимальная плавность, пользователь видит каждый токен сразу	Высокий overhead (HTTP-заголовки, TCP-пакеты), нагрузка на сеть и CPU
3–5 токенов	Хороший баланс между плавностью и overhead	Небольшая задержка перед появлением первого токена
10+ токенов	Минимальный overhead, эффективное сжатие	Заметная задержка, ухудшение UX

Практические рекомендации

Для production обычно выбирают 3–5 токенов как компромисс.
Можно динамически менять размер: первые чанки отправлять по 1 токену (чтобы пользователь сразу увидел начало), затем увеличивать до 5–10.
Размер чанка также зависит от средней длины ответа: для коротких ответов (1–2 предложения) лучше 1 токен, для длинных (код, статьи) — 5–10.

4. Управление буфером (buffer management)

Buffer — временное хранилище сгенерированных токенов перед отправкой. Нужен, чтобы:

Собирать чанки оптимального размера (например, накапливать до 5 токенов).
Сглаживать неравномерность генерации (LLM может генерировать с разной скоростью).
Применять сжатие перед отправкой.

Правила управления

Не накапливать больше N токенов (например, 100), чтобы не увеличивать latency.
Flush по таймеру: если токены не накопились до нужного размера за T мс (например, 50 мс), отправляем то, что есть.
Flush по окончанию генерации: при получении сигнала <eos> (end of stream) отправляем остаток.

Пример реализации буфера

class TokenBuffer:
    def __init__(self, max_tokens=5, flush_interval_ms=50):
        self.buffer = []
        self.max_tokens = max_tokens
        self.flush_interval = flush_interval_ms / 1000.0

    async def add_token(self, token: str):
        self.buffer.append(token)
        if len(self.buffer) >= self.max_tokens:
            await self.flush()

    async def flush(self):
        if self.buffer:
            chunk = "".join(self.buffer)
            self.buffer.clear()
            # Отправка chunk через SSE/WebSocket
            await send_chunk(chunk)

5. Backpressure (обратное давление)

Как реализовать

TCP backpressure: если клиент медленно читает, TCP-стек сам замедлит отправку (через управление окном). Но это не всегда эффективно.
Application-level backpressure: сервер отслеживает, сколько чанков отправлено, но не подтверждено клиентом. Если количество неподтверждённых чанков превышает лимит (например, 100), приостанавливаем генерацию.
В WebSocket: можно использовать фреймы с подтверждением (ack) или просто не отправлять новые сообщения, пока не получим сигнал от клиента.
В SSE: проще всего — ограничить скорость отправки (rate limiting) на стороне сервера.

Пример с asyncio.Queue

import asyncio

async def producer(queue: asyncio.Queue, max_queue_size=10):
    for token in generate_tokens():
        if queue.qsize() >= max_queue_size:
            await asyncio.sleep(0.1)  # backpressure: ждём, пока клиент заберёт
        await queue.put(token)

async def consumer(queue: asyncio.Queue):
    while True:
        token = await queue.get()
        await send_to_client(token)

6. Сжатие (gzip) для SSE

gzip compression — стандартный метод сжатия HTTP-ответов. Для SSE он работает, но с особенностями:

Прокси и CDN: многие прокси (nginx, Cloudflare) умеют сжимать SSE-потоки на лету.
Chunked transfer encoding: SSE обычно использует chunked encoding, и gzip применяется к каждому чанку отдельно или ко всему потоку.
Настройка: на стороне сервера включить gzip для text/event-stream. В FastAPI: middleware или настройка uvicorn.

Плюсы сжатия

Уменьшение объёма передаваемых данных (особенно для длинных ответов с повторяющимися токенами).
Снижение нагрузки на сеть.

Минусы

Дополнительная задержка на сжатие/распаковку (обычно незначительная).
Не все клиенты поддерживают gzip для SSE (но большинство современных браузеров — да).

Рекомендация включать gzip, если средний размер ответа > 10 КБ, и клиент поддерживает сжатие.

7. Учёт network limitations в production

7.1 Высокая задержка (high latency)

Использовать WebSocket вместо SSE (меньше overhead на установку соединения для каждого чанка).
Увеличить размер чанка (10–20 токенов), чтобы уменьшить количество пакетов.
Применить TCP_NODELAY (отключить алгоритм Нейгла) для отправки чанков без задержки.

7.2 Низкая пропускная способность (low bandwidth)

Сжатие gzip обязательно.
Уменьшить размер чанка (1–2 токена) — кажется парадоксальным, но при низком bandwidth лучше отправлять маленькие чанки, чтобы пользователь видел прогресс, даже если общее время больше.
Использовать binary framing в WebSocket для уменьшения overhead.

7.3 Потеря пакетов и нестабильность

SSE имеет встроенное переподключение (EventSource автоматически пересоединяется при разрыве).
WebSocket требует реализации retry с exponential backoff.
Добавить sequence numbers в чанки, чтобы клиент мог обнаружить пропуски и запросить повторную отправку.
Для критичных приложений — использовать acknowledgment (клиент подтверждает получение каждого чанка, сервер повторяет потерянные).

7.4 Мобильные сети (3G/4G/5G)

Реализовать adaptive chunk size: на основе измерения RTT (round-trip time) и скорости соединения динамически менять размер чанка.
Использовать service worker на клиенте для буферизации и восстановления соединения.

8. Мониторинг и observability streaming

Что отслеживать

Latency per chunk: время от генерации токена до отправки клиенту.
Chunk size distribution: средний размер чанка, количество чанков в секунду.
Network errors: количество разрывов соединения, таймаутов.
Backpressure events: сколько раз сервер приостанавливал генерацию.
Client-side metrics: время до первого токена (TTFT), время до последнего токена (TTLT).

Инструменты

Prometheus + Grafana для сбора метрик.
OpenTelemetry для трассировки каждого чанка.
Логирование с correlation ID для каждого стрима.

9. Особенности streaming в Agentic RAG

Промежуточные шаги: нужно передавать клиенту не только токены финального ответа, но и мысли агента, результаты вызовов инструментов.
Формат сообщений: использовать структурированные чанки (JSON), где указан тип (thought, tool_call, tool_result, token).
Управление состоянием: клиент должен понимать, на каком шаге находится агент, чтобы корректно отображать прогресс.
Backpressure на уровне агента: если клиент медленный, агент должен приостановить выполнение следующего шага.

Пример структуры чанка

{"type": "thought", "content": "Нужно найти информацию о погоде"}
{"type": "tool_call", "tool": "get_weather", "args": {"city": "Москва"}}
{"type": "tool_result", "content": "Температура: 20°C"}
{"type": "token", "content": "Согласно"}
{"type": "token", "content": "данным"}
...
{"type": "end"}

10. Пример production-решения на FastAPI + SSE с backpressure и сжатием

from fastapi import FastAPI, Request
from fastapi.responses import StreamingResponse
from fastapi.middleware.gzip import GZipMiddleware
import asyncio
import time

app = FastAPI()
app.add_middleware(GZipMiddleware, minimum_size=1000)  # сжатие для ответов > 1KB

class StreamingBuffer:
    def __init__(self, max_tokens=5, flush_interval=0.05):
        self.buffer = []
        self.max_tokens = max_tokens
        self.flush_interval = flush_interval
        self.last_flush = time.time()

    async def add(self, token: str, send_func):
        self.buffer.append(token)
        now = time.time()
        if len(self.buffer) >= self.max_tokens or (now - self.last_flush) >= self.flush_interval:
            await self.flush(send_func)

    async def flush(self, send_func):
        if self.buffer:
            chunk = "".join(self.buffer)
            self.buffer.clear()
            self.last_flush = time.time()
            await send_func(chunk)

async def generate(prompt: str, request: Request):
    buffer = StreamingBuffer(max_tokens=3)
    # Симуляция LLM с backpressure
    for token in simulate_llm(prompt):
        # Проверяем, не закрыл ли клиент соединение
        if await request.is_disconnected():
            break
        # Backpressure: ждём, если клиент медленный (имитация)
        await asyncio.sleep(0.01)
        await buffer.add(token, lambda chunk: send_sse(chunk))
    await buffer.flush(lambda chunk: send_sse(chunk))

async def send_sse(chunk: str):
    # В реальности отправка через StreamingResponse
    yield f"data: {chunk}\n\n"

@app.get("/stream")
async def stream(prompt: str, request: Request):
    return StreamingResponse(
        generate(prompt, request),
        media_type="text/event-stream",
        headers={"Cache-Control": "no-cache", "Connection": "keep-alive"}
    )

Пет-проект для закрепления

Задача Реализовать streaming чат-бота с Agentic RAG, который поддерживает SSE, адаптивный размер чанка и backpressure.

Инструменты

Python, FastAPI, asyncio
LangChain или простой агент с вызовом инструментов
Redis для хранения состояния сессии
Клиент на JavaScript (EventSource)

Шаги:

Создайте FastAPI-приложение с SSE-эндпоинтом /chat/stream.
Реализуйте агента, который на каждый запрос выполняет: думает → вызывает инструмент (поиск в векторной БД) → генерирует ответ.
Для каждого шага отправляйте структурированный JSON-чанк (type: thought/tool_call/tool_result/token).
Добавьте буфер с динамическим размером чанка: первые 3 токена отправляйте по 1, затем по 5.
Реализуйте backpressure: если очередь неподтверждённых чанков превышает 20, приостанавливайте генерацию.
На клиенте (HTML+JS) подпишитесь на EventSource, отображайте мысли агента в отдельном блоке, а токены — в основном.
Добавьте метрики: время до первого токена, количество чанков, ошибки сети.

Связь с другими вопросами

Вопрос	Тема
448	Как спроектировать streaming для Agentic RAG
450	Как обрабатывать ошибки при streaming
447	Как уменьшить latency в RAG-системе
446	Как балансировать нагрузку между LLM инстансами
452	Как логировать и мониторить streaming
445	Как реализовать fallback при недоступности LLM

Как вы делаете streaming в production с учетом network limitations?

Краткий тезис

1. Что такое streaming и зачем он нужен в production

2. Протоколы для streaming: SSE vs WebSocket

3. Размер чанка (chunk size)

4. Управление буфером (buffer management)

5. Backpressure (обратное давление)

6. Сжатие (gzip) для SSE

7. Учёт network limitations в production

7.1 Высокая задержка (high latency)

7.2 Низкая пропускная способность (low bandwidth)

7.3 Потеря пакетов и нестабильность

7.4 Мобильные сети (3G/4G/5G)

8. Мониторинг и observability streaming

9. Особенности streaming в Agentic RAG

10. Пример production-решения на FastAPI + SSE с backpressure и сжатием

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Как вы делаете streaming в production с учетом network limitations?

Краткий тезис

1. Что такое streaming и зачем он нужен в production

2. Протоколы для streaming: SSE vs WebSocket

3. Размер чанка (chunk size)

4. Управление буфером (buffer management)

5. Backpressure (обратное давление)

6. Сжатие (gzip) для SSE

7. Учёт network limitations в production

7.1 Высокая задержка (high latency)

7.2 Низкая пропускная способность (low bandwidth)

7.3 Потеря пакетов и нестабильность

7.4 Мобильные сети (3G/4G/5G)

8. Мониторинг и observability streaming

9. Особенности streaming в Agentic RAG

10. Пример production-решения на FastAPI + SSE с backpressure и сжатием

Пет-проект для закрепления

Связь с другими вопросами

Навигация