Как вы делаете асинхронную обработку long-running (>30s) LLM задач?

Q: Краткий тезис

Long-running [[Вики/LLM задачи\|LLM задачи]] ([[Вики/generation\|генерация]] длинных ответов, мультиагентные пайплайны, сложный [[Вики/гибридный поиск\|RAG]]) требуют асинхронной обработки, чтобы не блокировать пользователя. Основной паттерн — [[Вики/rollback\|возврат]] [[Вики/202 Accepted\|HTTP 202 Accepted]] с уникальным идентификатором задачи (`[[Вики/task_id\|task_id]]`), после чего клиент либо опрашивает статус через [[Вики/polling\|polling]] ([[Вики/GET tasks{id\|GET /tasks/{id]]}), либо п

Q: 2. Проблемы синхронного подхода

| Проблема | Описание | |----------|----------| | Блокировка соединения | HTTP-соединение держится открытым десятки секунд, расходуя ресурсы сервера. | | Таймаут на стороне клиента | Браузеры и библиотеки (requests, axios) часто имеют лимит 30–60 с. | | Плохой UX | Пользователь ждёт без обратной связи. |

Q: 4. Polling (опрос) — клиент сам спрашивает статус

После получения `[[Вики/task_id\|task_id]]` клиент периодически вызывает [[Вики/GET tasks{id\|GET /tasks/{id]] для проверки статуса. import requests, time TASK_ENDPOINT = "https://api.example.com/tasks/" def wait_for_task(task_id, poll_interval=2, timeout=120): start = time.time()

Q: 5. Webhook — сервер сам уведомляет клиента

Вместо активного опроса клиент предоставляет [[Вики/webhook\|callback URL]] ([[Вики/webhook\|вебхук]]), на который сервер отправит результат после завершения. // POST /async/completion { "prompt": "...", "webhook_url": "https://myapp.com/callback" } // Ответ: { "task_id": "abc", "status": "queued" }

Q: 6. Фоновая обработка: очередь + Worker

На бэкенде [[Вики/long-running задачи\|Long-running задачи]] управляются через [[Вики/queue\|очередь сообщений]] ([[Вики/Kafka\|message queue]]). Популярные решения: [[Вики/Celery\|Celery]] (брокер Redis/RabbitMQ) или [[Вики/Kafka\|Apache Kafka]] (для высоких нагрузок). Архитектура

Q: 7. Управление очередью: приоритеты, retry, dead letter

Чтобы система была надёжной, нужно: - **[[Вики/Task priority\|Приоритеты]]** — короткие задачи (например, чат-бот) должны выполняться раньше длинных. [[Вики/Celery\|Celery]] поддерживает очереди с разной скоростью потребления. - [[Вики/exponential backoff\|Retry]] с [[Вики/exponential backoff\|exponential backoff]] — при временных ошибках (overloaded [[Вики/GPT-4o\|LLM]], сетевые сбои) [[Вики/Task\|задача]] повторяется через увеличивающийся интервал.

Краткий тезис

Long-running LLM задачи (генерация длинных ответов, мультиагентные пайплайны, сложный RAG) требуют асинхронной обработки, чтобы не блокировать пользователя. Основной паттерн — возврат HTTP 202 Accepted с уникальным идентификатором задачи (task_id), после чего клиент либо опрашивает статус через polling (GET /tasks/{id}), либо получает уведомление через webhook. На бэкенде задачи ставятся в очередь (Celery, Kafka) и выполняются воркерами, а результаты сохраняются в хранилище (Redis/PostgreSQL) для последующего получения.

1. Термин: Long-running LLM задача

Long-running LLM задача — это любой call|вызов LLM, время выполнения которого превышает ожидаемый лимит синхронного ответа (обычно 10–30 секунд). Примеры:

Генерация текста с параметрами max_tokens=8000 на медленной модели.
Многошаговый RAG|Agentic RAG с цепочкой вызовов инструментов.
Batch-обработка нескольких промптов одним запросом.
Вызов внешних API внутри пайплайна (например, поиск в интернете, выполнение кода).

Если такая задача выполняется синхронно, клиент (браузер, мобильное приложение) рискует получить таймаут по HTTP и пользователь видит пустой экран.

2. Проблемы синхронного подхода

Проблема	Описание
Блокировка соединения	HTTP-соединение держится открытым десятки секунд, расходуя ресурсы сервера.
Таймаут на стороне клиента	Браузеры и библиотеки (requests, axios) часто имеют лимит 30–60 с.
Плохой UX	Пользователь ждёт без обратной связи.
Сложность масштабирования	Каждый запрос занимает поток/воркер на всё время выполнения.

Асинхронный подход решает эти проблемы, разделяя приём запроса и получение результата.

3. Паттерн: 202 Accepted + Task ID

Базовая идея: при получении запроса сервер не ждёт завершения задачи, а сразу возвращает HTTP 202 Accepted и JSON с идентификатором задачи (task_id).

// POST /async/completion
// Request: { "prompt": "...", "max_tokens": 5000 }

// Response (202)
{
  "task_id": "abc123-...",
  "status": "queued",
  "estimated_time_sec": 45
}

Преимущества

Клиент получает ответ мгновенно.
Сервер может поставить задачу в очередь и не держать поток.
Клиент может показывать пользователю прогресс (например, «Обрабатывается…»).

4. Polling (опрос) — клиент сам спрашивает статус

После получения task_id клиент периодически вызывает GET /tasks/{id для проверки статуса.

import requests, time

TASK_ENDPOINT = "https://api.example.com/tasks/"

def wait_for_task(task_id, poll_interval=2, timeout=120):
    start = time.time()
    while time.time() - start < timeout:
        resp = requests.get(f"{TASK_ENDPOINT}{task_id}")
        data = resp.json()
        if data["status"] == "completed":
            return data["result"]
        elif data["status"] == "failed":
            raise Exception(data.get("error", "Task failed"))
        time.sleep(poll_interval)
    raise TimeoutError("Task did not complete within timeout")

Возможные статусы

queued — в очереди
processing — выполняется
completed — готово
failed — ошибка

Недостатки polling

Лишние запросы, нагрузка на API.
Задержка между завершением и моментом узнавания (до poll_interval).
Клиент должен сам реализовать логику опроса.

Рекомендации

Использовать экспоненциальную задержку (сначала 1 с, потом 2, 4, 8… до 30 с).
Передавать в ответе estimated_remaining_sec, чтобы клиент адаптировал интервал.

5. Webhook — сервер сам уведомляет клиента

Вместо активного опроса клиент предоставляет callback URL (вебхук), на который сервер отправит результат после завершения.

// POST /async/completion
{
  "prompt": "...",
  "webhook_url": "https://myapp.com/callback"
}

// Ответ: { "task_id": "abc", "status": "queued" }

// Через 45 с сервер отправляет POST на webhook_url:
{
  "task_id": "abc",
  "status": "completed",
  "result": { "text": "..." }
}

Преимущества webhook

Мгновенное уведомление без опросов.
Меньше нагрузки на сервер.
Подходит для серверных приложений (например, боты, backend-to-backend).

Недостатки

Клиент должен быть доступен для приёма POST.
Нужно обеспечить retry при временных ошибках.
Требуется верификация webhook (подпись HMAC) для безопасности.

Критерий	Polling	Webhook
Сложность клиента	Низкая	Средняя (нужен endpoint)
Задержка уведомления	До poll_interval	Мгновенно
Нагрузка на сервер	Выше (частые запросы)	Ниже (только один коллбэк)
Подходит для браузеров	Да (fetch/setInterval)	Только Service Worker / SSE
Масштабирование	Неограниченно	Зависит от надёжности клиента

6. Фоновая обработка: очередь + Worker

На бэкенде Long-running задачи управляются через очередь сообщений (message queue). Популярные решения: Celery (брокер Redis/RabbitMQ) или Apache Kafka (для высоких нагрузок).

Архитектура

Client → API Gateway (202) → Task Queue (Celery/Kafka) → Worker pool (GPU pods) → Result Store (Redis/DB)

Шаги:

API Gateway получает POST-запрос, создаёт запись в БД (task_id, status='queued', payload), отправляет сообщение в очередь.
Один из воркеров подхватывает задачу, меняет статус на processing, вызывает LLM.
После завершения воркер сохраняет результат в Result Store (например, Redis с TTL) и обновляет статус на completed.
Клиент (через polling или webhook) получает результат.

Код Celery (Python):

from celery import Celery

app = Celery('tasks', broker='redis://localhost:6379', backend='redis://localhost:6379')

@app.task(bind=True, max_retries=3)
def run_llm_generation(self, prompt: str):
    try:
        # Имитация долгого вызова LLM
        result = call_llm(prompt, max_tokens=5000)
        return {'status': 'completed', 'result': result}
    except Exception as e:
        self.retry(exc=e, countdown=30)

# В API:
task = run_llm_generation.delay(prompt)
return {"task_id": task.id}, 202

Kafka используется, когда требуется:

Гарантированная доставка и повторная обработка (exactly-once семантика).
Хранение истории сообщений.
Распределённая обработка между микросервисами.

7. Управление очередью: приоритеты, retry, dead letter

Чтобы система была надёжной, нужно:

Приоритеты — короткие задачи (например, чат-бот) должны выполняться раньше длинных. Celery поддерживает очереди с разной скоростью потребления.
Retry с exponential backoff — при временных ошибках (overloaded LLM, сетевые сбои) задача повторяется через увеличивающийся интервал.
Dead Letter Queue (DLQ) — задачи, исчерпавшие max_retries, попадают в DLQ для ручного разбора.
TTL (Time-To-Live) — если результат не будет востребован (например, прошло 10 минут), он автоматически удаляется.

@app.task(bind=True, max_retries=5, default_retry_delay=60, acks_late=True)
def long_llm_task(self, ...):
    # ...
    if something_fatal:
        self.request.chain = None  # предотвратить повторение
        raise

8. Хранение состояния задач

Для polling и webhook необходимо единое хранилище статусов и результатов. Варианты:

Хранилище	Плюсы	Минусы
Redis	Высокая скорость, TTL, атомарные операции	Нет долговременного хранения, возможна потеря при сбое без AOF
PostgreSQL	Надёжность, ACID, долговременное хранение	Медленнее, нужна миграция схемы
Mongo/NoSQL	Гибкая схема, горизонтальное масштабирование	Нет транзакций, сложнее согласованность

Типичная схема в Redis

task:{id}:status → queued/processing/completed/failed
task:{id}:result → JSON (или ссылка на файл S3)
task:{id}:meta → время старта, количество ретраев, параметры

TTL устанавливается, например, на 1 час для автоматической очистки.

9. Мониторинг и observability

Для Long-running задач критично отслеживать:

Задержка в очереди (queue latency) — сколько задача ждёт воркера.
Время выполнения (task duration) — распределение по моделям, размерам промпта.
Процент ошибок (failure rate) — по типам ошибок: таймаут LLM, переполнение контекста, ошибки инструментов.
Количество активных воркеров — автоподъем при перегрузке.

Инструменты Prometheus + Grafana (метрики), Loki (логи), OpenTelemetry (трассировка).

Пример метрики для Celery (через prometheus-client):

from prometheus_client import Histogram, Counter

task_duration = Histogram('llm_task_duration_seconds', 'Time to complete LLM task', buckets=[1,5,10,30,60,120])
task_errors = Counter('llm_task_errors_total', 'Number of failed tasks', ['error_type'])

10. Обработка ошибок и таймаутов

Таймаут на стороне воркера — если LLM зависла (например, бесконечный цикл в эмбеддинге), необходимо прерывание:

import signal

class TimeoutException(Exception):
    pass

def handler(signum, frame):
    raise TimeoutException("LLM call timed out")

signal.signal(signal.SIGALRM, handler)
signal.alarm(60)  # 60 секунд

try:
    result = call_llm(prompt)
except TimeoutException:
    # завершить задачу с ошибкой
    self.update_state(state='FAILURE', meta={'exc': 'timeout'})

Грейсфул шатдаун воркера — при завершении процесса текущие задачи должны либо дообработаться, либо отложиться обратно (ack_on_failure=False).

Dead Letter Queue для задач, которые не удалось выполнить после всех ретраев.

11. Выбор архитектуры для Agentic RAG

В Agentic RAG LLM вызывается многократно (план → поиск → чтение → ответ). Каждый шаг может быть Long-running (>30s). Асинхронная обработка позволяет:

Параллельно запускать несколько шагов (например, одновременный поиск по нескольким источникам).
Сохранять промежуточное состояние (state) для возобновления после сбоя.
Использовать DAG задач (например, через Prefect, Temporal) для координации.

Пример Agentic RAG с очередью

Пользователь отправляет запрос → менеджер ставит задачу в очередь.
Воркер запускает агента, который порождает подзадачи (поиск, суммаризация).
Каждая подзадача — отдельное сообщение в очереди с приоритетом.
По завершении всех подзадач агент собирает ответ и сохраняет его.
Клиент получает результат через polling или webhook.

Пет-проект для закрепления

Задача Реализовать асинхронный сервис для генерации текста через OpenAI API с поддержкой polling и webhook.

Инструменты FastAPI, Celery, Redis, Python, Docker Compose.

Шаги:

Создать FastAPI endpoint POST /generate с параметрами prompt, max_tokens, webhook_url (опционально).
При получении запроса — создать задачу в Celery (generate_text.delay(prompt, max_tokens)), вернуть 202 { task_id, status }.
Написать задачу Celery, которая вызывает OpenAI API, обрабатывает таймауты (signal alarm), сохраняет результат в Redis (ключ task:{id}).
Реализовать GET /tasks/{id} для polling.
Если передан webhook_url, после завершения отправить POST на этот URL с результатом (подписать HMAC).
Настроить мониторинг: добавить prometheus_client для длительности и ошибок.
Написать клиентский скрипт, который делает запрос и опрашивает или ожидает webhook.

Ожидаемый результат

Клиент получает task_id мгновенно.
Polling работает с экспоненциальной задержкой.
Webhook доставляет результат в течение секунды после завершения.
Метрики видны в Grafana (например, гистограмма времени генерации).

Связь с другими вопросами

Вопрос	Тема
252	Архитектура Agentic RAG (многошаговые пайплайны)
254	Управление состоянием в агентах (state management)
255	Мониторинг и observability для LLM
260	Вебхуки и события (event-driven architecture)
270	Производительность LLM-инференса (latency, throughput)

Краткий тезис

1. Термин: Long-running LLM задача

Генерация текста с параметрами max_tokens=8000 на медленной модели.
Многошаговый RAG|Agentic RAG с цепочкой вызовов инструментов.
Batch-обработка нескольких промптов одним запросом.
Вызов внешних API внутри пайплайна (например, поиск в интернете, выполнение кода).

2. Проблемы синхронного подхода

Проблема	Описание
Блокировка соединения	HTTP-соединение держится открытым десятки секунд, расходуя ресурсы сервера.
Таймаут на стороне клиента	Браузеры и библиотеки (requests, axios) часто имеют лимит 30–60 с.
Плохой UX	Пользователь ждёт без обратной связи.
Сложность масштабирования	Каждый запрос занимает поток/воркер на всё время выполнения.

Асинхронный подход решает эти проблемы, разделяя приём запроса и получение результата.

3. Паттерн: 202 Accepted + Task ID

// POST /async/completion
// Request: { "prompt": "...", "max_tokens": 5000 }

// Response (202)
{
  "task_id": "abc123-...",
  "status": "queued",
  "estimated_time_sec": 45
}

Преимущества

Клиент получает ответ мгновенно.
Сервер может поставить задачу в очередь и не держать поток.
Клиент может показывать пользователю прогресс (например, «Обрабатывается…»).

4. Polling (опрос) — клиент сам спрашивает статус

После получения task_id клиент периодически вызывает GET /tasks/{id для проверки статуса.

import requests, time

TASK_ENDPOINT = "https://api.example.com/tasks/"

def wait_for_task(task_id, poll_interval=2, timeout=120):
    start = time.time()
    while time.time() - start < timeout:
        resp = requests.get(f"{TASK_ENDPOINT}{task_id}")
        data = resp.json()
        if data["status"] == "completed":
            return data["result"]
        elif data["status"] == "failed":
            raise Exception(data.get("error", "Task failed"))
        time.sleep(poll_interval)
    raise TimeoutError("Task did not complete within timeout")

Возможные статусы

queued — в очереди
processing — выполняется
completed — готово
failed — ошибка

Недостатки polling

Лишние запросы, нагрузка на API.
Задержка между завершением и моментом узнавания (до poll_interval).
Клиент должен сам реализовать логику опроса.

Рекомендации

Использовать экспоненциальную задержку (сначала 1 с, потом 2, 4, 8… до 30 с).
Передавать в ответе estimated_remaining_sec, чтобы клиент адаптировал интервал.

5. Webhook — сервер сам уведомляет клиента

// POST /async/completion
{
  "prompt": "...",
  "webhook_url": "https://myapp.com/callback"
}

// Ответ: { "task_id": "abc", "status": "queued" }

// Через 45 с сервер отправляет POST на webhook_url:
{
  "task_id": "abc",
  "status": "completed",
  "result": { "text": "..." }
}

Преимущества webhook

Мгновенное уведомление без опросов.
Меньше нагрузки на сервер.
Подходит для серверных приложений (например, боты, backend-to-backend).

Недостатки

Клиент должен быть доступен для приёма POST.
Нужно обеспечить retry при временных ошибках.
Требуется верификация webhook (подпись HMAC) для безопасности.

Критерий	Polling	Webhook
Сложность клиента	Низкая	Средняя (нужен endpoint)
Задержка уведомления	До poll_interval	Мгновенно
Нагрузка на сервер	Выше (частые запросы)	Ниже (только один коллбэк)
Подходит для браузеров	Да (fetch/setInterval)	Только Service Worker / SSE
Масштабирование	Неограниченно	Зависит от надёжности клиента

6. Фоновая обработка: очередь + Worker

Архитектура

Client → API Gateway (202) → Task Queue (Celery/Kafka) → Worker pool (GPU pods) → Result Store (Redis/DB)

Шаги:

API Gateway получает POST-запрос, создаёт запись в БД (task_id, status='queued', payload), отправляет сообщение в очередь.
Один из воркеров подхватывает задачу, меняет статус на processing, вызывает LLM.
После завершения воркер сохраняет результат в Result Store (например, Redis с TTL) и обновляет статус на completed.
Клиент (через polling или webhook) получает результат.

Код Celery (Python):

from celery import Celery

app = Celery('tasks', broker='redis://localhost:6379', backend='redis://localhost:6379')

@app.task(bind=True, max_retries=3)
def run_llm_generation(self, prompt: str):
    try:
        # Имитация долгого вызова LLM
        result = call_llm(prompt, max_tokens=5000)
        return {'status': 'completed', 'result': result}
    except Exception as e:
        self.retry(exc=e, countdown=30)

# В API:
task = run_llm_generation.delay(prompt)
return {"task_id": task.id}, 202

Kafka используется, когда требуется:

Гарантированная доставка и повторная обработка (exactly-once семантика).
Хранение истории сообщений.
Распределённая обработка между микросервисами.

7. Управление очередью: приоритеты, retry, dead letter

Чтобы система была надёжной, нужно:

Приоритеты — короткие задачи (например, чат-бот) должны выполняться раньше длинных. Celery поддерживает очереди с разной скоростью потребления.
Retry с exponential backoff — при временных ошибках (overloaded LLM, сетевые сбои) задача повторяется через увеличивающийся интервал.
Dead Letter Queue (DLQ) — задачи, исчерпавшие max_retries, попадают в DLQ для ручного разбора.
TTL (Time-To-Live) — если результат не будет востребован (например, прошло 10 минут), он автоматически удаляется.

@app.task(bind=True, max_retries=5, default_retry_delay=60, acks_late=True)
def long_llm_task(self, ...):
    # ...
    if something_fatal:
        self.request.chain = None  # предотвратить повторение
        raise

8. Хранение состояния задач

Для polling и webhook необходимо единое хранилище статусов и результатов. Варианты:

Хранилище	Плюсы	Минусы
Redis	Высокая скорость, TTL, атомарные операции	Нет долговременного хранения, возможна потеря при сбое без AOF
PostgreSQL	Надёжность, ACID, долговременное хранение	Медленнее, нужна миграция схемы
Mongo/NoSQL	Гибкая схема, горизонтальное масштабирование	Нет транзакций, сложнее согласованность

Типичная схема в Redis

task:{id}:status → queued/processing/completed/failed
task:{id}:result → JSON (или ссылка на файл S3)
task:{id}:meta → время старта, количество ретраев, параметры

TTL устанавливается, например, на 1 час для автоматической очистки.

9. Мониторинг и observability

Для Long-running задач критично отслеживать:

Задержка в очереди (queue latency) — сколько задача ждёт воркера.
Время выполнения (task duration) — распределение по моделям, размерам промпта.
Процент ошибок (failure rate) — по типам ошибок: таймаут LLM, переполнение контекста, ошибки инструментов.
Количество активных воркеров — автоподъем при перегрузке.

Инструменты Prometheus + Grafana (метрики), Loki (логи), OpenTelemetry (трассировка).

Пример метрики для Celery (через prometheus-client):

from prometheus_client import Histogram, Counter

task_duration = Histogram('llm_task_duration_seconds', 'Time to complete LLM task', buckets=[1,5,10,30,60,120])
task_errors = Counter('llm_task_errors_total', 'Number of failed tasks', ['error_type'])

10. Обработка ошибок и таймаутов

import signal

class TimeoutException(Exception):
    pass

def handler(signum, frame):
    raise TimeoutException("LLM call timed out")

signal.signal(signal.SIGALRM, handler)
signal.alarm(60)  # 60 секунд

try:
    result = call_llm(prompt)
except TimeoutException:
    # завершить задачу с ошибкой
    self.update_state(state='FAILURE', meta={'exc': 'timeout'})

Dead Letter Queue для задач, которые не удалось выполнить после всех ретраев.

11. Выбор архитектуры для Agentic RAG

Параллельно запускать несколько шагов (например, одновременный поиск по нескольким источникам).
Сохранять промежуточное состояние (state) для возобновления после сбоя.
Использовать DAG задач (например, через Prefect, Temporal) для координации.

Пример Agentic RAG с очередью

Пользователь отправляет запрос → менеджер ставит задачу в очередь.
Воркер запускает агента, который порождает подзадачи (поиск, суммаризация).
Каждая подзадача — отдельное сообщение в очереди с приоритетом.
По завершении всех подзадач агент собирает ответ и сохраняет его.
Клиент получает результат через polling или webhook.

Пет-проект для закрепления

Задача Реализовать асинхронный сервис для генерации текста через OpenAI API с поддержкой polling и webhook.

Инструменты FastAPI, Celery, Redis, Python, Docker Compose.

Шаги:

Создать FastAPI endpoint POST /generate с параметрами prompt, max_tokens, webhook_url (опционально).
При получении запроса — создать задачу в Celery (generate_text.delay(prompt, max_tokens)), вернуть 202 { task_id, status }.
Написать задачу Celery, которая вызывает OpenAI API, обрабатывает таймауты (signal alarm), сохраняет результат в Redis (ключ task:{id}).
Реализовать GET /tasks/{id} для polling.
Если передан webhook_url, после завершения отправить POST на этот URL с результатом (подписать HMAC).
Настроить мониторинг: добавить prometheus_client для длительности и ошибок.
Написать клиентский скрипт, который делает запрос и опрашивает или ожидает webhook.

Ожидаемый результат

Клиент получает task_id мгновенно.
Polling работает с экспоненциальной задержкой.
Webhook доставляет результат в течение секунды после завершения.
Метрики видны в Grafana (например, гистограмма времени генерации).

Связь с другими вопросами

Вопрос	Тема
252	Архитектура Agentic RAG (многошаговые пайплайны)
254	Управление состоянием в агентах (state management)
255	Мониторинг и observability для LLM
260	Вебхуки и события (event-driven architecture)
270	Производительность LLM-инференса (latency, throughput)

Как вы делаете асинхронную обработку long-running (>30s) LLM задач?

Краткий тезис

1. Термин: Long-running LLM задача

2. Проблемы синхронного подхода

3. Паттерн: 202 Accepted + Task ID

4. Polling (опрос) — клиент сам спрашивает статус

5. Webhook — сервер сам уведомляет клиента

6. Фоновая обработка: очередь + Worker

7. Управление очередью: приоритеты, retry, dead letter

8. Хранение состояния задач

9. Мониторинг и observability

10. Обработка ошибок и таймаутов

11. Выбор архитектуры для Agentic RAG

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Как вы делаете асинхронную обработку long-running (>30s) LLM задач?

Краткий тезис

1. Термин: Long-running LLM задача

2. Проблемы синхронного подхода

3. Паттерн: 202 Accepted + Task ID

4. Polling (опрос) — клиент сам спрашивает статус

5. Webhook — сервер сам уведомляет клиента

6. Фоновая обработка: очередь + Worker

7. Управление очередью: приоритеты, retry, dead letter

8. Хранение состояния задач

9. Мониторинг и observability

10. Обработка ошибок и таймаутов

11. Выбор архитектуры для Agentic RAG

Пет-проект для закрепления

Связь с другими вопросами

Навигация