Как вы документируете RAG-систему для команды?

Q: Краткий тезис

Документация RAG-системы — это не статичный [[Вики/PDF\|PDF]], а живой артефакт, который снижает time-to-productivity для новых членов команды и предотвращает [[Вики/ошибки\|ошибки]] эксплуатации. Ключевые компоненты: архитектурная [[Вики/database schema\|схема]], [[Вики/SPEC.md\|спецификация]] [[Вики/API\|API]], конфигурация моделей ([[Вики/chunk size\|chunk size]], **[[Вики/text-embedding-3-small\|embedding model]]**, [[Вики/GPT-4o\|LLM]]), метрики и [[Вики/SLA\|SLO]], [[Вики/Prompt engineerin

Q: 1. Зачем документировать RAG-систему?

- [[Вики/ошибки\|Ошибки]] при деплое: неправильные переменные окружения, неверный [[Вики/chunk size\|chunk size]], пропущенный этап эмбеддинга. - Долгий [[Вики/onboarding\|онбординг]]: новый разработчик тратит недели на выяснение, как вызывать сервис и почему ответы неполные. - Трудности с отладкой: невозможно быстро понять, что изменилось в конфигурации.

Q: 2. Архитектурная схема (первое, что видит разработчик)

Пример упрощённой [[Вики/template circuits\|схемы]] (текстовое описание): [Client] → [API Gateway] → [RAG Service] ├── POST /query ├── Embedding Service (bge-m3) │ ├── Vector DB (Qdrant) │ ├── Reranker (cross-encoder)

Q: 3. Спецификация API (как вызывать систему)

Опишите интерфейсы в формате **[[Вики/OpenAPI specification\|OpenAPI]] ([[Вики/OpenAPI\|Swagger]])** или [[Вики/gRPC\|gRPC]] proto. Для REST-эндпоинтов обязательно: | Поле | Описание | |------|----------| | `POST /query` | Основной эндпоинт. Тело: `{"query": str, "top_k": int, "stream": bool}`. Ответ: `{"response": str, "sources": [{"chunk_id": str, "score": float, "text": str}]}` |

Q: 5. Метрики и SLO (Service Level Objectives)

Документируйте целевые значения метрик для production: | Метрика | SLO | Как измеряем | |---------|-----|--------------| | **P95 latency** | 0.85 | Оффлайн-оценка на тестовом датасете (RAGAS) | | **Faithfulness** (RAGAS) | > 0.9 | Ежедневный скрипт с промптами из логов |

Q: 6. Инструкция по деплою (Docker + Helm)

Опишите шаги для развёртывания в [[Вики/Kubernetes\|Kubernetes]]: 1. Prerequisites: кластер K8s (>=1.25), установленный Helm 3, доступ к Docker registry. 2. Сборка образов: docker build -t registry.example.com/rag-service:v1.0 . docker push registry.example.com/rag-service:v1.0 3. Установка через Helm:

Q: 7. Примеры запросов и ответов (Golden Test Cases)

Добавьте 3–5 примеров, которые покрывают разные сценарии: | Запрос | Ожидаемый ответ | Комментарий | |--------|----------------|-------------| | «Что такое chunk size?» | «Chunk size — это количество токенов в одном фрагменте текста. По умолчанию — 512.» | Нормальный казус | | «Какой курс доллара завтра?» | «Извините, у меня нет информации о курсе доллара. Задайте вопрос по документации RAG-системы.» | Запрос вне RAG |

Краткий тезис

Документация RAG-системы — это не статичный PDF, а живой артефакт, который снижает time-to-productivity для новых членов команды и предотвращает ошибки эксплуатации. Ключевые компоненты: архитектурная схема, спецификация API, конфигурация моделей (chunk size, embedding model, LLM), метрики и SLO, инструкция по деплою, примеры запросов-ответов и раздел known issues. Документировать нужно в формате, который легко обновляется (Markdown, OpenAPI) и хранится рядом с кодом.

1. Зачем документировать RAG-систему?

RAG-система включает множество движущихся частей: векторную БД, эмбеддер, LLM, пайплайн chunking'а и retrieval'а, реранкер, prompt template. Без документации:

Ошибки при деплое: неправильные переменные окружения, неверный chunk size, пропущенный этап эмбеддинга.
Долгий онбординг: новый разработчик тратит недели на выяснение, как вызывать сервис и почему ответы неполные.
Трудности с отладкой: невозможно быстро понять, что изменилось в конфигурации.

Документация — это скорость ввода новых членов команды и снижение рисков при передаче системы в поддержку.

2. Архитектурная схема (первое, что видит разработчик)

Схема должна отображать поток данных от запроса пользователя до генерации ответа. Используйте C4 model или PlantUML для версионирования схемы вместе с кодом.

Пример упрощённой схемы (текстовое описание):

[Client] → [API Gateway] → [RAG Service]
   ├── POST /query              ├── Embedding Service (bge-m3)
   │                            ├── Vector DB (Qdrant)
   │                            ├── Reranker (cross-encoder)
   │                            └── LLM (Llama 3-70B via vLLM)
   └── Get /health              └── Monitoring (Prometheus + Grafana)

На схеме обязательно указать:

какие эмбеддинги используются (модель, размерность, нормализация)
тип векторной БД и её параметры (расстояние — cosine, dot product)
какие LLM поддерживаются и как переключаются (A/B тесты)
сервисы-зависимости (кэш Redis, реранкер, мониторинг)

3. Спецификация API (как вызывать систему)

Опишите интерфейсы в формате OpenAPI (Swagger) или gRPC proto. Для REST-эндпоинтов обязательно:

Поле	Описание
`POST /query`	Основной эндпоинт. Тело: `{"query": str, "top_k": int, "stream": bool}`. Ответ: `{"response": str, "sources": [{"chunk_id": str, "score": float, "text": str}]}`
`GET /health`	Проверка живучести сервиса (статус эмбеддера, LLM, БД).
`POST /feedback`	Обратная связь от пользователя (лайк/дизлайк) для мониторинга.

Пример кода вызова (Python-клиент):

import requests

response = requests.post(
    "https://rag.example.com/query",
    json={
        "query": "Как настроить chunk size?",
        "top_k": 5,
        "stream": False
    },
    headers={"Authorization": "Bearer <token>"}
)
print(response.json()["response"])

Примечания: опишите лимиты (max query length, max context length), формат ошибок (коды 400, 429, 500), поддерживаемые источники авторизации.

4. Параметры моделей и конфигурация

Создайте таблицу со всеми настраиваемыми параметрами, их значениями по умолчанию и рекомендациями:

Параметр	Значение	Пояснение
Embedding model	`BAAI/bge-m3`	1024-мерные вектора, нормализованные; `query_instruction_for_retrieval` = ""
Chunk size	512 токенов	Компромисс между полнотой и шумом. Измерять через recall@10.
Chunk overlap	128 токенов	Предотвращает разрыв предложений.
Top-K retrieval	10	Количество чанков, передаваемых в LLM (без реранкера).
Reranker	`BAAI/bge-reranker-v2-m3`	Включён. После reranker берётся top-3.
LLM	`meta-llama/Meta-Llama-3-70B-Instruct`	Провайдер: vLLM. Temperature=0.1, max_tokens=1024.
Prompt template	`./prompts/rag_v4.txt`	Содержит инструкцию «Отвечай только на основе контекста. Если нет ответа, скажи "Не знаю".»
Vector DB	Qdrant (standalone), metric=cosine	Кластер из 3 нод, шардирование по tenant_id.

Почему эти значения — ссылайтесь на эксперименты, графики recall@k или faithfulness из дашборда.

5. Метрики и SLO (Service Level Objectives)

Документируйте целевые значения метрик для production:

Метрика	SLO	Как измеряем
P95 latency	< 2 сек	OpenTelemetry + Jaeger
Recall@5	> 0.85	Оффлайн-оценка на тестовом датасете (RAGAS)
Faithfulness (RAGAS)	> 0.9	Ежедневный скрипт с промптами из логов
Availability	99.9%	Uptime Kuma, проверка/health
Context relevance	> 0.85	Автоматическая оценка каждого запроса

Пример кода для вычисления faithfulness (используем RAGAS):

from ragas import evaluate
from datasets import Dataset

dataset = Dataset.from_dict({
    "question": ["Как настроить chunk size?"],
    "answer": ["Рекомендуемый chunk size 512 токенов..."],
    "contexts": [["Chunk size влияет на recall и latency..."]]
})
result = evaluate(dataset, metrics=["faithfulness"])
print(result["faithfulness"])

6. Инструкция по деплою (Docker + Helm)

Опишите шаги для развёртывания в Kubernetes:

Prerequisites: кластер K8s (>=1.25), установленный Helm 3, доступ к Docker registry.

Сборка образов:

docker build -t registry.example.com/rag-service:v1.0 .
docker push registry.example.com/rag-service:v1.0

Установка через Helm:

helm upgrade --install rag-service ./charts/rag-service \
  --set image.tag=v1.0 \
  --set qdrant.host=qdrant-cluster \
  --set llm.endpoint=http://vllm-svc:8000

Конфигурация (через values.yaml):

env:
  EMBEDDING_MODEL: "BAAI/bge-m3"
  CHUNK_SIZE: 512
  TOP_K: 10

Healthcheck: пропишите liveness probe и readiness probe (например, /health).

Дополнительно: схема сети (NodePort / Ingress), требования к GPU (для реранкера), настройка TLS.

7. Примеры запросов и ответов (Golden Test Cases)

Добавьте 3–5 примеров, которые покрывают разные сценарии:

Запрос	Ожидаемый ответ	Комментарий
«Что такое chunk size?»	«Chunk size — это количество токенов в одном фрагменте текста. По умолчанию — 512.»	Нормальный казус
«Какой курс доллара завтра?»	«Извините, у меня нет информации о курсе доллара. Задайте вопрос по документации RAG-системы.»	Запрос вне RAG
«В ответе ошибка: chunk size 123»	«Проверьте, что chunk size в конфиге не превышает 1024 токенов. Рекомендуется 512.»	Граничный случай

Эти тесты автоматизируются в CI/CD (pytest) и гарантируют, что изменения не сломают базовое поведение.

8. Known Issues and Workarounds (известные проблемы и их обходы)

Ведите таблицу, которая обновляется с каждым инцидентом:

Проблема	Причина	Workaround	Статус
Ответ LLM содержит галлюцинации, даже если контекст пуст	LLM игнорирует инструкцию «отвечай только на основе контекста»	Заменить prompt template на жёсткий: «Если контекст пуст, отвечай "Не знаю".»	Fixed v2.1
Latency > 5 сек при высоких нагрузках	Reranker загружает модель на одном GPU, очередь растёт	Масштабировать реранкер до 2 подов, добавить rate-limiter	In progress
Векторная БД не отвечает	Сбой в Qdrant кластере	Добавить circuit breaker и кэш Redis для топ K результатов	Planned

9. Пет-проект для закрепления

Задача: Создать документацию для микро-RAG-системы, которая отвечает на вопросы по API популярного сервиса (например, OpenWeather).
Инструменты: MkDocs (хостинг на GitHub Pages), PlantUML (диаграмма), OpenAPI (спецификация эндпоинта /query).
Шаги:

Развернуть простой RAG: FastAPI + Chroma + OpenAI embeddings.
Написать MkDocs-проект: архитектура, API, конфигурация (chunk_size, model).
Добавить автотесты (pytest) с проверкой recall@5.
Включить раздел «Known issues» (например, проблема с актуальностью погоды).
Опубликовать на GitHub Pages.
Ожидаемый результат: Документация, по которой коллега сможет за 30 минут локально запустить и протестировать систему.

10. Связь с другими вопросами

Вопрос	Тема
1	Как спроектировать RAG под 10 000 документов?
5	Оценка качества retrieval
7	Уменьшение latency
10	Self-RAG и когда его использовать
20	Обновление документов в существующей RAG-системе

Краткий тезис

1. Зачем документировать RAG-систему?

Ошибки при деплое: неправильные переменные окружения, неверный chunk size, пропущенный этап эмбеддинга.
Долгий онбординг: новый разработчик тратит недели на выяснение, как вызывать сервис и почему ответы неполные.
Трудности с отладкой: невозможно быстро понять, что изменилось в конфигурации.

2. Архитектурная схема (первое, что видит разработчик)

Пример упрощённой схемы (текстовое описание):

[Client] → [API Gateway] → [RAG Service]
   ├── POST /query              ├── Embedding Service (bge-m3)
   │                            ├── Vector DB (Qdrant)
   │                            ├── Reranker (cross-encoder)
   │                            └── LLM (Llama 3-70B via vLLM)
   └── Get /health              └── Monitoring (Prometheus + Grafana)

На схеме обязательно указать:

какие эмбеддинги используются (модель, размерность, нормализация)
тип векторной БД и её параметры (расстояние — cosine, dot product)
какие LLM поддерживаются и как переключаются (A/B тесты)
сервисы-зависимости (кэш Redis, реранкер, мониторинг)

3. Спецификация API (как вызывать систему)

Опишите интерфейсы в формате OpenAPI (Swagger) или gRPC proto. Для REST-эндпоинтов обязательно:

Поле	Описание
`POST /query`	Основной эндпоинт. Тело: `{"query": str, "top_k": int, "stream": bool}`. Ответ: `{"response": str, "sources": [{"chunk_id": str, "score": float, "text": str}]}`
`GET /health`	Проверка живучести сервиса (статус эмбеддера, LLM, БД).
`POST /feedback`	Обратная связь от пользователя (лайк/дизлайк) для мониторинга.

Пример кода вызова (Python-клиент):

import requests

response = requests.post(
    "https://rag.example.com/query",
    json={
        "query": "Как настроить chunk size?",
        "top_k": 5,
        "stream": False
    },
    headers={"Authorization": "Bearer <token>"}
)
print(response.json()["response"])

4. Параметры моделей и конфигурация

Создайте таблицу со всеми настраиваемыми параметрами, их значениями по умолчанию и рекомендациями:

Параметр	Значение	Пояснение
Embedding model	`BAAI/bge-m3`	1024-мерные вектора, нормализованные; `query_instruction_for_retrieval` = ""
Chunk size	512 токенов	Компромисс между полнотой и шумом. Измерять через recall@10.
Chunk overlap	128 токенов	Предотвращает разрыв предложений.
Top-K retrieval	10	Количество чанков, передаваемых в LLM (без реранкера).
Reranker	`BAAI/bge-reranker-v2-m3`	Включён. После reranker берётся top-3.
LLM	`meta-llama/Meta-Llama-3-70B-Instruct`	Провайдер: vLLM. Temperature=0.1, max_tokens=1024.
Prompt template	`./prompts/rag_v4.txt`	Содержит инструкцию «Отвечай только на основе контекста. Если нет ответа, скажи "Не знаю".»
Vector DB	Qdrant (standalone), metric=cosine	Кластер из 3 нод, шардирование по tenant_id.

Почему эти значения — ссылайтесь на эксперименты, графики recall@k или faithfulness из дашборда.

5. Метрики и SLO (Service Level Objectives)

Документируйте целевые значения метрик для production:

Метрика	SLO	Как измеряем
P95 latency	< 2 сек	OpenTelemetry + Jaeger
Recall@5	> 0.85	Оффлайн-оценка на тестовом датасете (RAGAS)
Faithfulness (RAGAS)	> 0.9	Ежедневный скрипт с промптами из логов
Availability	99.9%	Uptime Kuma, проверка/health
Context relevance	> 0.85	Автоматическая оценка каждого запроса

Пример кода для вычисления faithfulness (используем RAGAS):

from ragas import evaluate
from datasets import Dataset

dataset = Dataset.from_dict({
    "question": ["Как настроить chunk size?"],
    "answer": ["Рекомендуемый chunk size 512 токенов..."],
    "contexts": [["Chunk size влияет на recall и latency..."]]
})
result = evaluate(dataset, metrics=["faithfulness"])
print(result["faithfulness"])

6. Инструкция по деплою (Docker + Helm)

Опишите шаги для развёртывания в Kubernetes:

Prerequisites: кластер K8s (>=1.25), установленный Helm 3, доступ к Docker registry.

Сборка образов:

docker build -t registry.example.com/rag-service:v1.0 .
docker push registry.example.com/rag-service:v1.0

Установка через Helm:

helm upgrade --install rag-service ./charts/rag-service \
  --set image.tag=v1.0 \
  --set qdrant.host=qdrant-cluster \
  --set llm.endpoint=http://vllm-svc:8000

Конфигурация (через values.yaml):

env:
  EMBEDDING_MODEL: "BAAI/bge-m3"
  CHUNK_SIZE: 512
  TOP_K: 10

Healthcheck: пропишите liveness probe и readiness probe (например, /health).

Дополнительно: схема сети (NodePort / Ingress), требования к GPU (для реранкера), настройка TLS.

7. Примеры запросов и ответов (Golden Test Cases)

Добавьте 3–5 примеров, которые покрывают разные сценарии:

Запрос	Ожидаемый ответ	Комментарий
«Что такое chunk size?»	«Chunk size — это количество токенов в одном фрагменте текста. По умолчанию — 512.»	Нормальный казус
«Какой курс доллара завтра?»	«Извините, у меня нет информации о курсе доллара. Задайте вопрос по документации RAG-системы.»	Запрос вне RAG
«В ответе ошибка: chunk size 123»	«Проверьте, что chunk size в конфиге не превышает 1024 токенов. Рекомендуется 512.»	Граничный случай

Эти тесты автоматизируются в CI/CD (pytest) и гарантируют, что изменения не сломают базовое поведение.

8. Known Issues and Workarounds (известные проблемы и их обходы)

Ведите таблицу, которая обновляется с каждым инцидентом:

Проблема	Причина	Workaround	Статус
Ответ LLM содержит галлюцинации, даже если контекст пуст	LLM игнорирует инструкцию «отвечай только на основе контекста»	Заменить prompt template на жёсткий: «Если контекст пуст, отвечай "Не знаю".»	Fixed v2.1
Latency > 5 сек при высоких нагрузках	Reranker загружает модель на одном GPU, очередь растёт	Масштабировать реранкер до 2 подов, добавить rate-limiter	In progress
Векторная БД не отвечает	Сбой в Qdrant кластере	Добавить circuit breaker и кэш Redis для топ K результатов	Planned

9. Пет-проект для закрепления

Развернуть простой RAG: FastAPI + Chroma + OpenAI embeddings.
Написать MkDocs-проект: архитектура, API, конфигурация (chunk_size, model).
Добавить автотесты (pytest) с проверкой recall@5.
Включить раздел «Known issues» (например, проблема с актуальностью погоды).
Опубликовать на GitHub Pages.
Ожидаемый результат: Документация, по которой коллега сможет за 30 минут локально запустить и протестировать систему.

10. Связь с другими вопросами

Вопрос	Тема
1	Как спроектировать RAG под 10 000 документов?
5	Оценка качества retrieval
7	Уменьшение latency
10	Self-RAG и когда его использовать
20	Обновление документов в существующей RAG-системе

Как вы документируете RAG-систему для команды?

Краткий тезис

1. Зачем документировать RAG-систему?

2. Архитектурная схема (первое, что видит разработчик)

3. Спецификация API (как вызывать систему)

4. Параметры моделей и конфигурация

5. Метрики и SLO (Service Level Objectives)

6. Инструкция по деплою (Docker + Helm)

7. Примеры запросов и ответов (Golden Test Cases)

8. Known Issues and Workarounds (известные проблемы и их обходы)

9. Пет-проект для закрепления

10. Связь с другими вопросами

Навигация

Как вы документируете RAG-систему для команды?

Краткий тезис

1. Зачем документировать RAG-систему?

2. Архитектурная схема (первое, что видит разработчик)

3. Спецификация API (как вызывать систему)

4. Параметры моделей и конфигурация

5. Метрики и SLO (Service Level Objectives)

6. Инструкция по деплою (Docker + Helm)

7. Примеры запросов и ответов (Golden Test Cases)

8. Known Issues and Workarounds (известные проблемы и их обходы)

9. Пет-проект для закрепления

10. Связь с другими вопросами

Навигация