Как вы делаете distributed tracing для цепочки: user → gateway → RAG → LLM → user?

Q: 1. Термин: Distributed Tracing (распределённая трассировка)

Q: 2. OpenTelemetry: стандарт инструментирования

Компоненты [[Вики/OpenTelemetry\|OTel]] - SDK — встраивается в [[Вики/Code\|код]] сервиса, создаёт [[Вики/Span\|spans]]. - [[Вики/Metric exporter\|Exporter]] — отправляет [[Вики/Span\|spans]] в [[Вики/OpenTelemetry collector\|collector]] или напрямую в бэкенд. - [[Вики/OpenTelemetry collector\|Collector]] — [[Вики/agent\|агент]], который принимает, обрабатывает и пересылает телеметрию (может выполнять фильтрацию, [[Вики/sampling\|семплинг]], добавление атрибутов).

Q: 4. Иерархия Spans для цепочки user → gateway → RAG → LLM → user

Каждый этап должен быть представлен отдельным [[Вики/Span\|span]] с правильным parent-child отношением. | Span name | Parent | Атрибуты (примеры) | |-----------|--------|-------------------| | `gateway.parse_request` | root span (trace) | `http.method`, `http.url`, `user.id` | | `rag.retrieve` | `gateway.parse_request` | `top_k`, `latency`, `hit_count`, `index_name` |

Q: 5. Атрибуты Spans: что логировать

Атрибуты помогают анализировать [[Вики/performance\|производительность]] и диагностировать проблемы. Рекомендуется добавлять: - Для [[Вики/retrieval\|retrieval]] `top_k`, `[[Вики/hit_count\|hit_count]]` (сколько релевантных документов найдено), `[[Вики/Latency\|latency_ms]]`, `index_name`, `embedding_model`.

Q: 6. Инструменты визуализации: Jaeger, Zipkin, Grafana Tempo

| Инструмент | Особенности | Когда использовать | |-----------|-------------|-------------------| | [[Вики/Jaeger\|Jaeger]] | Open-source, популярен, поддерживает search по атрибутам, dependency graph | Стандартный выбор для большинства команд | | [[Вики/Zipkin\|Zipkin]] | Легковесный, меньше фич, но прост в настройке | Для небольших систем или legacy |

Q: 8. Интеграция с логированием и метриками (Observability Triad)

Distributed tracing — часть **observability** вместе с метриками и логами. Рекомендуется: - Добавлять [[Вики/мониторинг\|trace ID]] в логи каждого сервиса, чтобы можно было перейти от лога к трейсу. - Использовать **метрики** (latency, error rate, throughput) для агрегированной картины, а трейсы — для детального анализа конкретных запросов.

Краткий тезис

Distributed tracing — это метод отслеживания запроса через несколько микросервисов. Для цепочки user → gateway → RAG → LLM → user мы инструментируем каждый сервис с помощью OpenTelemetry, создаём иерархию spans с корректным context propagation через HTTP-заголовки traceparent и tracestate. Каждый span содержит атрибуты, специфичные для этапа (например, top_k для retrieval, model и tokens для LLM). Собранные трейсы отправляются в Jaeger или Zipkin для визуализации и анализа узких мест.

1. Термин: Distributed Tracing (распределённая трассировка)

Distributed tracing — это техника наблюдения за запросом, который проходит через несколько сервисов распределённой системы. Каждый запрос получает уникальный trace ID, а каждый шаг обработки внутри сервиса — span ID. Spans образуют дерево с родительскими и дочерними связями.

Зачем для RAG-системы

RAG-система состоит минимум из трёх компонентов: gateway (API-шлюз), retrieval (поиск по векторной БД) и LLM (генерация ответа). Без distributed tracing невозможно понять, какой этап тормозит или выдаёт ошибку.
Позволяет измерять latency каждого этапа, выявлять узкие места (например, медленный retrieval или долгий LLM-вызов) и оптимизировать систему.

Ключевые понятия

Trace — полный путь запроса от входа до выхода.
Span — единица работы внутри одного сервиса (например, rag.retrieve).
Context propagation — механизм передачи trace ID и parent span ID между сервисами (обычно через HTTP-заголовки).

2. OpenTelemetry: стандарт инструментирования

OpenTelemetry (OTel) — это открытый стандарт для сбора телеметрии (трейсы, метрики, логи). Он предоставляет SDK для разных языков (Python, Go, Java и т.д.) и экспортёров для отправки данных в бэкенды (Jaeger, Zipkin, Prometheus, Grafana Tempo).

Компоненты OTel

SDK — встраивается в код сервиса, создаёт spans.
Exporter — отправляет spans в collector или напрямую в бэкенд.
Collector — агент, который принимает, обрабатывает и пересылает телеметрию (может выполнять фильтрацию, семплинг, добавление атрибутов).

Пример установки в Python

from opentelemetry import trace
from opentelemetry.exporter.otlp.proto.grpc.trace_exporter import OTLPSpanExporter
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import BatchSpanProcessor

provider = TracerProvider()
processor = BatchSpanProcessor(OTLPSpanExporter(endpoint="http://jaeger:4317"))
provider.add_span_processor(processor)
trace.set_tracer_provider(provider)
tracer = trace.get_tracer(__name__)

3. Trace Propagation: заголовки W3C Trace Context

Для передачи контекста между сервисами используется стандарт W3C Trace Context. Два ключевых HTTP-заголовка:

traceparent — содержит trace ID, parent span ID и флаг трассировки (sampled/not sampled). Формат: 00-<trace-id>-<parent-span-id>-<flags>.
tracestate — дополнительные данные для вендор-специфичной информации (например, для Datadog или AWS X-Ray).

Как это работает в цепочке

Gateway получает запрос от пользователя. Если заголовка traceparent нет, gateway создаёт новый trace.
Gateway добавляет заголовки в исходящий запрос к RAG-сервису.
RAG-сервис читает заголовки, создаёт дочерний span с parent span ID из заголовка.
Аналогично при вызове LLM.

Пример middleware для FastAPI

from opentelemetry.instrumentation.fastapi import FastAPIInstrumentor

app = FastAPI()
FastAPIInstrumentor.instrument_app(app)

Это автоматически создаёт spans для каждого HTTP-запроса и извлекает/пропагирует контекст.

4. Иерархия Spans для цепочки user → gateway → RAG → LLM → user

Каждый этап должен быть представлен отдельным span с правильным parent-child отношением.

Span name	Parent	Атрибуты (примеры)
`gateway.parse_request`	root span (trace)	`http.method`, `http.url`, `user.id`
`rag.retrieve`	`gateway.parse_request`	`top_k`, `latency`, `hit_count`, `index_name`
`rag.rerank` (если есть)	`rag.retrieve`	`reranker_model`, `num_candidates`
`llm.generate`	`rag.retrieve` или `rag.rerank`	`model`, `temperature`, `tokens`, `prompt_length`
`gateway.stream_response`	`gateway.parse_request`	`response_size`, `streaming`

Важно llm.generate может быть дочерним от rag.retrieve, если LLM вызывается сразу после retrieval. Если есть reranker, то llm.generate — дочерний от rag.rerank.

Пример создания span в RAG-сервисе

with tracer.start_as_current_span("rag.retrieve") as span:
    span.set_attribute("top_k", 5)
    span.set_attribute("hit_count", 3)
    results = vector_store.search(query, top_k=5)
    span.set_attribute("latency_ms", (time.time() - start)*1000)
    # передаём контекст при вызове LLM
    with tracer.start_as_current_span("llm.generate") as llm_span:
        llm_span.set_attribute("model", "gpt-4")
        response = llm.generate(prompt)

5. Атрибуты Spans: что логировать

Атрибуты помогают анализировать производительность и диагностировать проблемы. Рекомендуется добавлять:

Для retrieval top_k, hit_count (сколько релевантных документов найдено), latency_ms, index_name, embedding_model.
Для reranker reranker_model, num_candidates, score_threshold.
Для LLM model, temperature, max_tokens, prompt_tokens, completion_tokens, total_tokens, latency_ms.
Для gateway user_id (анонимизированный), request_size, response_size, status_code.

Важно Не передавайте PII (персональные данные) в атрибутах — только анонимизированные идентификаторы.

6. Инструменты визуализации: Jaeger, Zipkin, Grafana Tempo

Инструмент	Особенности	Когда использовать
Jaeger	Open-source, популярен, поддерживает search по атрибутам, dependency graph	Стандартный выбор для большинства команд
Zipkin	Легковесный, меньше фич, но прост в настройке	Для небольших систем или legacy
Grafana Tempo	Интеграция с Grafana, хранение в object storage (S3), масштабируемость	Если уже используете Grafana для метрик и логов
Datadog APM / AWS X-Ray	SaaS, платные, но с богатой аналитикой	Enterprise-среды с готовой инфраструктурой

Пример настройки Jaeger с OTel

# docker-compose.yml
services:
  jaeger:
    image: jaegertracing/all-in-one:latest
    ports:
      - "16686:16686"  # UI
      - "4317:4317"    # OTLP gRPC

7. Семплинг (Sampling)

Трассировка каждого запроса может быть дорогой (overhead на создание spans, передачу данных). Используется семплинг — запись только части трейсов.

Head-based sampling — решение о записи принимается в начале трейса (например, 10% запросов). Просто, но может пропустить редкие ошибки.
Tail-based sampling — решение после завершения трейса (например, сохранять все трейсы с ошибками + случайную выборку успешных). Требует больше ресурсов.
Probabilistic sampler — случайная выборка с заданной вероятностью (например, 0.1).
Rate-limiting sampler — не более N трейсов в секунду.

Пример настройки в Python

from opentelemetry.sdk.trace.sampling import ParentBasedTraceIdRatio

provider = TracerProvider(
    sampler=ParentBasedTraceIdRatio(0.1)  # 10% трейсов
)

8. Интеграция с логированием и метриками (Observability Triad)

Distributed tracing — часть observability вместе с метриками и логами. Рекомендуется:

Добавлять trace ID в логи каждого сервиса, чтобы можно было перейти от лога к трейсу.
Использовать метрики (latency, error rate, throughput) для агрегированной картины, а трейсы — для детального анализа конкретных запросов.
Correlation ID — единый идентификатор запроса, который передаётся через все сервисы и используется в трейсах, логах и метриках.

Пример добавления trace ID в лог (Python + structlog):

import structlog
from opentelemetry import trace

def add_trace_id(logger, method_name, event_dict):
    span = trace.get_current_span()
    if span:
        ctx = span.get_span_context()
        event_dict["trace_id"] = hex(ctx.trace_id)
    return event_dict

structlog.configure(processors=[add_trace_id, ...])

9. Проблемы и Best Practices

Проблемы

Overhead — создание spans и экспорт могут замедлить сервис. Решение: семплинг, асинхронный экспорт.
Security — не передавать чувствительные данные (пароли, токены) в атрибутах.
Стандартизация — все сервисы должны использовать одинаковый протокол (OTLP) и формат атрибутов.
Неполные трейсы — если один сервис не инструментирован, трейс обрывается.

Best Practices:

Инструментируйте все сервисы, включая gateway, RAG, LLM (если это ваш сервис, а не внешний API). Для внешних LLM (OpenAI) используйте OpenTelemetry instrumentation для HTTP-клиентов.
Используйте автоматическую инструментацию (например, opentelemetry-instrumentation-flask, opentelemetry-instrumentation-requests) для HTTP-запросов.
Добавляйте custom attributes для бизнес-метрик (например, hit_count, relevance_score).
Настройте alerting на основе трейсов (например, если latency rag.retrieve > 500ms).

10. Пример полной реализации на Python (FastAPI + OpenTelemetry)

gateway.py

from fastapi import FastAPI
from opentelemetry import trace
from opentelemetry.instrumentation.fastapi import FastAPIInstrumentor
from opentelemetry.instrumentation.requests import RequestsInstrumentor
import requests

app = FastAPI()
FastAPIInstrumentor.instrument_app(app)
RequestsInstrumentor().instrument()

tracer = trace.get_tracer(__name__)

@app.get("/query")
async def query(q: str):
    with tracer.start_as_current_span("gateway.parse_request") as span:
        span.set_attribute("query", q)
        # вызов RAG-сервиса (контекст пропагируется автоматически через requests)
        resp = requests.get("http://rag-service:8000/retrieve", params={"q": q})
        return resp.json()

rag_service.py

from fastapi import FastAPI
from opentelemetry import trace
from opentelemetry.instrumentation.fastapi import FastAPIInstrumentor
import time

app = FastAPI()
FastAPIInstrumentor.instrument_app(app)
tracer = trace.get_tracer(__name__)

@app.get("/retrieve")
async def retrieve(q: str):
    with tracer.start_as_current_span("rag.retrieve") as span:
        start = time.time()
        results = vector_store.search(q, top_k=5)
        latency = (time.time() - start) * 1000
        span.set_attribute("top_k", 5)
        span.set_attribute("hit_count", len(results))
        span.set_attribute("latency_ms", latency)
        # вызов LLM
        with tracer.start_as_current_span("llm.generate") as llm_span:
            llm_span.set_attribute("model", "gpt-4")
            answer = llm.generate(q, context=results)
            llm_span.set_attribute("tokens", answer.usage.total_tokens)
        return {"answer": answer.text}

Пет-проект для закрепления

Задача Реализовать distributed tracing для мини-RAG системы из трёх микросервисов (gateway, retriever, LLM) с визуализацией в Jaeger.

Инструменты Python, FastAPI, OpenTelemetry, Jaeger (all-in-one), Docker Compose.

Шаги:

Напишите три сервиса: gateway (принимает запрос, вызывает retriever), retriever (имитирует поиск по векторной БД с задержкой), llm (имитирует генерацию ответа с задержкой).
Добавьте OpenTelemetry SDK в каждый сервис, настройте экспорт в Jaeger через OTLP.
Реализуйте propagation: убедитесь, что трейс проходит через все сервисы.
Добавьте атрибуты: top_k, latency, model, tokens.
Запустите Jaeger и отправьте несколько запросов. Посмотрите dependency graph и timeline.
Настройте семплинг: запишите только 50% трейсов.

Ожидаемый результат Вы увидите в Jaeger полный трейс с четырьмя spans (gateway, retrieve, llm, gateway response) и сможете анализировать latency каждого этапа.

Связь с другими вопросами

Вопрос	Тема
7	Как вы уменьшаете latency RAG-системы?
9	Как вы обновляете документы в существующей RAG-системе?
10	Что такое Self-RAG и когда его использовать?
15	Как вы деплоите RAG-систему в production?
20	Как вы мониторите RAG-систему в production?
25	Какие метрики вы используете для оценки RAG?

Краткий тезис

1. Термин: Distributed Tracing (распределённая трассировка)

Зачем для RAG-системы

RAG-система состоит минимум из трёх компонентов: gateway (API-шлюз), retrieval (поиск по векторной БД) и LLM (генерация ответа). Без distributed tracing невозможно понять, какой этап тормозит или выдаёт ошибку.
Позволяет измерять latency каждого этапа, выявлять узкие места (например, медленный retrieval или долгий LLM-вызов) и оптимизировать систему.

Ключевые понятия

Trace — полный путь запроса от входа до выхода.
Span — единица работы внутри одного сервиса (например, rag.retrieve).
Context propagation — механизм передачи trace ID и parent span ID между сервисами (обычно через HTTP-заголовки).

2. OpenTelemetry: стандарт инструментирования

Компоненты OTel

SDK — встраивается в код сервиса, создаёт spans.
Exporter — отправляет spans в collector или напрямую в бэкенд.
Collector — агент, который принимает, обрабатывает и пересылает телеметрию (может выполнять фильтрацию, семплинг, добавление атрибутов).

Пример установки в Python

from opentelemetry import trace
from opentelemetry.exporter.otlp.proto.grpc.trace_exporter import OTLPSpanExporter
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import BatchSpanProcessor

provider = TracerProvider()
processor = BatchSpanProcessor(OTLPSpanExporter(endpoint="http://jaeger:4317"))
provider.add_span_processor(processor)
trace.set_tracer_provider(provider)
tracer = trace.get_tracer(__name__)

3. Trace Propagation: заголовки W3C Trace Context

Для передачи контекста между сервисами используется стандарт W3C Trace Context. Два ключевых HTTP-заголовка:

traceparent — содержит trace ID, parent span ID и флаг трассировки (sampled/not sampled). Формат: 00-<trace-id>-<parent-span-id>-<flags>.
tracestate — дополнительные данные для вендор-специфичной информации (например, для Datadog или AWS X-Ray).

Как это работает в цепочке

Gateway получает запрос от пользователя. Если заголовка traceparent нет, gateway создаёт новый trace.
Gateway добавляет заголовки в исходящий запрос к RAG-сервису.
RAG-сервис читает заголовки, создаёт дочерний span с parent span ID из заголовка.
Аналогично при вызове LLM.

Пример middleware для FastAPI

from opentelemetry.instrumentation.fastapi import FastAPIInstrumentor

app = FastAPI()
FastAPIInstrumentor.instrument_app(app)

Это автоматически создаёт spans для каждого HTTP-запроса и извлекает/пропагирует контекст.

4. Иерархия Spans для цепочки user → gateway → RAG → LLM → user

Каждый этап должен быть представлен отдельным span с правильным parent-child отношением.

Span name	Parent	Атрибуты (примеры)
`gateway.parse_request`	root span (trace)	`http.method`, `http.url`, `user.id`
`rag.retrieve`	`gateway.parse_request`	`top_k`, `latency`, `hit_count`, `index_name`
`rag.rerank` (если есть)	`rag.retrieve`	`reranker_model`, `num_candidates`
`llm.generate`	`rag.retrieve` или `rag.rerank`	`model`, `temperature`, `tokens`, `prompt_length`
`gateway.stream_response`	`gateway.parse_request`	`response_size`, `streaming`

Пример создания span в RAG-сервисе

with tracer.start_as_current_span("rag.retrieve") as span:
    span.set_attribute("top_k", 5)
    span.set_attribute("hit_count", 3)
    results = vector_store.search(query, top_k=5)
    span.set_attribute("latency_ms", (time.time() - start)*1000)
    # передаём контекст при вызове LLM
    with tracer.start_as_current_span("llm.generate") as llm_span:
        llm_span.set_attribute("model", "gpt-4")
        response = llm.generate(prompt)

5. Атрибуты Spans: что логировать

Атрибуты помогают анализировать производительность и диагностировать проблемы. Рекомендуется добавлять:

Для retrieval top_k, hit_count (сколько релевантных документов найдено), latency_ms, index_name, embedding_model.
Для reranker reranker_model, num_candidates, score_threshold.
Для LLM model, temperature, max_tokens, prompt_tokens, completion_tokens, total_tokens, latency_ms.
Для gateway user_id (анонимизированный), request_size, response_size, status_code.

Важно Не передавайте PII (персональные данные) в атрибутах — только анонимизированные идентификаторы.

6. Инструменты визуализации: Jaeger, Zipkin, Grafana Tempo

Инструмент	Особенности	Когда использовать
Jaeger	Open-source, популярен, поддерживает search по атрибутам, dependency graph	Стандартный выбор для большинства команд
Zipkin	Легковесный, меньше фич, но прост в настройке	Для небольших систем или legacy
Grafana Tempo	Интеграция с Grafana, хранение в object storage (S3), масштабируемость	Если уже используете Grafana для метрик и логов
Datadog APM / AWS X-Ray	SaaS, платные, но с богатой аналитикой	Enterprise-среды с готовой инфраструктурой

Пример настройки Jaeger с OTel

# docker-compose.yml
services:
  jaeger:
    image: jaegertracing/all-in-one:latest
    ports:
      - "16686:16686"  # UI
      - "4317:4317"    # OTLP gRPC

7. Семплинг (Sampling)

Head-based sampling — решение о записи принимается в начале трейса (например, 10% запросов). Просто, но может пропустить редкие ошибки.
Tail-based sampling — решение после завершения трейса (например, сохранять все трейсы с ошибками + случайную выборку успешных). Требует больше ресурсов.
Probabilistic sampler — случайная выборка с заданной вероятностью (например, 0.1).
Rate-limiting sampler — не более N трейсов в секунду.

Пример настройки в Python

from opentelemetry.sdk.trace.sampling import ParentBasedTraceIdRatio

provider = TracerProvider(
    sampler=ParentBasedTraceIdRatio(0.1)  # 10% трейсов
)

8. Интеграция с логированием и метриками (Observability Triad)

Distributed tracing — часть observability вместе с метриками и логами. Рекомендуется:

Добавлять trace ID в логи каждого сервиса, чтобы можно было перейти от лога к трейсу.
Использовать метрики (latency, error rate, throughput) для агрегированной картины, а трейсы — для детального анализа конкретных запросов.
Correlation ID — единый идентификатор запроса, который передаётся через все сервисы и используется в трейсах, логах и метриках.

Пример добавления trace ID в лог (Python + structlog):

import structlog
from opentelemetry import trace

def add_trace_id(logger, method_name, event_dict):
    span = trace.get_current_span()
    if span:
        ctx = span.get_span_context()
        event_dict["trace_id"] = hex(ctx.trace_id)
    return event_dict

structlog.configure(processors=[add_trace_id, ...])

9. Проблемы и Best Practices

Проблемы

Overhead — создание spans и экспорт могут замедлить сервис. Решение: семплинг, асинхронный экспорт.
Security — не передавать чувствительные данные (пароли, токены) в атрибутах.
Стандартизация — все сервисы должны использовать одинаковый протокол (OTLP) и формат атрибутов.
Неполные трейсы — если один сервис не инструментирован, трейс обрывается.

Best Practices:

Инструментируйте все сервисы, включая gateway, RAG, LLM (если это ваш сервис, а не внешний API). Для внешних LLM (OpenAI) используйте OpenTelemetry instrumentation для HTTP-клиентов.
Используйте автоматическую инструментацию (например, opentelemetry-instrumentation-flask, opentelemetry-instrumentation-requests) для HTTP-запросов.
Добавляйте custom attributes для бизнес-метрик (например, hit_count, relevance_score).
Настройте alerting на основе трейсов (например, если latency rag.retrieve > 500ms).

10. Пример полной реализации на Python (FastAPI + OpenTelemetry)

gateway.py

from fastapi import FastAPI
from opentelemetry import trace
from opentelemetry.instrumentation.fastapi import FastAPIInstrumentor
from opentelemetry.instrumentation.requests import RequestsInstrumentor
import requests

app = FastAPI()
FastAPIInstrumentor.instrument_app(app)
RequestsInstrumentor().instrument()

tracer = trace.get_tracer(__name__)

@app.get("/query")
async def query(q: str):
    with tracer.start_as_current_span("gateway.parse_request") as span:
        span.set_attribute("query", q)
        # вызов RAG-сервиса (контекст пропагируется автоматически через requests)
        resp = requests.get("http://rag-service:8000/retrieve", params={"q": q})
        return resp.json()

rag_service.py

from fastapi import FastAPI
from opentelemetry import trace
from opentelemetry.instrumentation.fastapi import FastAPIInstrumentor
import time

app = FastAPI()
FastAPIInstrumentor.instrument_app(app)
tracer = trace.get_tracer(__name__)

@app.get("/retrieve")
async def retrieve(q: str):
    with tracer.start_as_current_span("rag.retrieve") as span:
        start = time.time()
        results = vector_store.search(q, top_k=5)
        latency = (time.time() - start) * 1000
        span.set_attribute("top_k", 5)
        span.set_attribute("hit_count", len(results))
        span.set_attribute("latency_ms", latency)
        # вызов LLM
        with tracer.start_as_current_span("llm.generate") as llm_span:
            llm_span.set_attribute("model", "gpt-4")
            answer = llm.generate(q, context=results)
            llm_span.set_attribute("tokens", answer.usage.total_tokens)
        return {"answer": answer.text}

Пет-проект для закрепления

Задача Реализовать distributed tracing для мини-RAG системы из трёх микросервисов (gateway, retriever, LLM) с визуализацией в Jaeger.

Инструменты Python, FastAPI, OpenTelemetry, Jaeger (all-in-one), Docker Compose.

Шаги:

Напишите три сервиса: gateway (принимает запрос, вызывает retriever), retriever (имитирует поиск по векторной БД с задержкой), llm (имитирует генерацию ответа с задержкой).
Добавьте OpenTelemetry SDK в каждый сервис, настройте экспорт в Jaeger через OTLP.
Реализуйте propagation: убедитесь, что трейс проходит через все сервисы.
Добавьте атрибуты: top_k, latency, model, tokens.
Запустите Jaeger и отправьте несколько запросов. Посмотрите dependency graph и timeline.
Настройте семплинг: запишите только 50% трейсов.

Связь с другими вопросами

Вопрос	Тема
7	Как вы уменьшаете latency RAG-системы?
9	Как вы обновляете документы в существующей RAG-системе?
10	Что такое Self-RAG и когда его использовать?
15	Как вы деплоите RAG-систему в production?
20	Как вы мониторите RAG-систему в production?
25	Какие метрики вы используете для оценки RAG?

Как вы делаете distributed tracing для цепочки: user → gateway → RAG → LLM → user?

Краткий тезис

1. Термин: Distributed Tracing (распределённая трассировка)

2. OpenTelemetry: стандарт инструментирования

3. Trace Propagation: заголовки W3C Trace Context

4. Иерархия Spans для цепочки user → gateway → RAG → LLM → user

5. Атрибуты Spans: что логировать

6. Инструменты визуализации: Jaeger, Zipkin, Grafana Tempo

7. Семплинг (Sampling)

8. Интеграция с логированием и метриками (Observability Triad)

9. Проблемы и Best Practices

10. Пример полной реализации на Python (FastAPI + OpenTelemetry)

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Как вы делаете distributed tracing для цепочки: user → gateway → RAG → LLM → user?

Краткий тезис

1. Термин: Distributed Tracing (распределённая трассировка)

2. OpenTelemetry: стандарт инструментирования

3. Trace Propagation: заголовки W3C Trace Context

4. Иерархия Spans для цепочки user → gateway → RAG → LLM → user

5. Атрибуты Spans: что логировать

6. Инструменты визуализации: Jaeger, Zipkin, Grafana Tempo

7. Семплинг (Sampling)

8. Интеграция с логированием и метриками (Observability Triad)

9. Проблемы и Best Practices

10. Пример полной реализации на Python (FastAPI + OpenTelemetry)

Пет-проект для закрепления

Связь с другими вопросами

Навигация