Поиск
- wikiGateway
# Gateway ## Определение API-шлюз, выступающий единой точкой входа для запросов к системе RAG и LLM, обеспечивающий валидацию, маршрутизацию, rate limiting…
- wikiKong
# Kong ## Определение Популярный API Gateway с плагинами для rate limiting, аутентификации и маршрутизации. Используется как прокси для LLM-сервисов. ## Где…
- wikiDDoS
…Защита реализуется через rate limiting на уровне API Gateway. ## Где встречается - [[829. Что такое rate limiting на уровне API Gateway…
- wikiX-RateLimit-*
# X-RateLimit-* ## Определение Стандартные HTTP-заголовки, используемые для реализации rate limiting в API Gateway; включают лимит, оставшееся количество и время…
- wikiLua-скрипты
…Что такое rate limiting на уровне API Gateway для LLM|829. Что такое rate limiting на уровне API Gateway для…
- wikiredis-cell
…Что такое rate limiting на уровне API Gateway для LLM|829. Что такое rate limiting на уровне API Gateway для…
- answerЧто такое rate limiting на уровне API Gateway для LLM?
…Пример интеграции с API Gateway (Kong / NGINX) [[Вики/Kong\|Kong]] — популярный [[Вики/Gateway\|API Gateway]] с плагином `[[Вики/rate limiting…
- wikihard limit
…Что такое rate limiting на уровне API Gateway для LLM|829. Что такое rate limiting на уровне API Gateway для…
- wikiburst allowance
…Что такое rate limiting на уровне API Gateway для LLM|829. Что такое rate limiting на уровне API Gateway для…
- wikiatomic operations
…Что такое rate limiting на уровне API Gateway для LLM|829. Что такое rate limiting на уровне API Gateway для…
- wikisoft limit
…Что такое rate limiting на уровне API Gateway для LLM|829. Что такое rate limiting на уровне API Gateway для…
- wikiadaptive rate limiting
…Что такое rate limiting на уровне API Gateway для LLM|829. Что такое rate limiting на уровне API Gateway для…
- wikiQuota
…Что такое rate limiting на уровне API Gateway для LLM|829. Что такое rate limiting на уровне API Gateway для…
- wikiJWT Token
…Что такое rate limiting на уровне API Gateway для LLM|829. Что такое rate limiting на уровне API Gateway для…
- wikileaky bucket
…Что такое rate limiting на уровне API Gateway для LLM|829. Что такое rate limiting на уровне API Gateway для…
- wikiNginx
…Что такое rate limiting на уровне API Gateway для LLM|829. Что такое rate limiting на уровне API Gateway для…
- answerЧто такое end-to-end backpressure в LLM пайплайне и как его реализовать?
…Как работает backpressure на практике ### 3.1 API gateway → очередь [[Вики/Gateway\|Gateway]] (например, [[Вики/Kong\|Nginx]] с `limit_req…
- wikiMiddleware
…Что такое rate limiting на уровне API Gateway для LLM|829. Что такое rate limiting на уровне API Gateway для…
- answerКак вы делаете distributed tracing для цепочки: user → gateway → RAG → LLM → user?
…это [[Вики/chain\|цепочка]] разнородных компонентов: [[Вики/Gateway\|gateway]] ([[Вики/Gateway\|API-шлюз]]), [[Вики/retrieval\|retrieval]] ([[Вики/Chroma\|векторная БД…
- wikiJaeger
…Как вы проектируете API для внешних систем, использующих вашу LLM]] - [[241. Как вы делаете distributed tracing для цепочки user → gateway…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить budgeting для команд
…логам использования LLM (токены, затраты) | API провайдера (OpenAI, Anthropic, Vertex AI) или внутренний gateway | | Инфраструктура мониторинга | Prometheus + Grafana / Datadog / CloudWatch…
- answerКак вы делаете distributed tracing для цепочки: user → gateway → RAG → LLM → user?
…Зачем для RAG-системы - [[Вики/RAG\|RAG-система]] состоит минимум из трёх компонентов: [[Вики/Gateway\|gateway]] ([[Вики/Gateway\|API-шлюз…
- wikiOpenAI API
…цепочки user → gateway → RAG → LLM → user]] - [[247. Как вы проектируете multi-region active-active для LLM API|247. Как вы…
- wikiFastAPI
…контексте LLM API и зачем она нужна]] - [[241. Как вы делаете distributed tracing для цепочки user → gateway → RAG → LLM → user…
- answerКак вы спроектируете систему, которая может переключаться между разными LLM провайдерами без даунтайма?
…def __init__(self, api_key: str, model: str = "gpt-4o"): self.client = openai.AsyncOpenAI(api_key=api_key) self.model…
- wikitoken bucket
…Что такое rate limiting на уровне API Gateway для LLM|829. Что такое rate limiting на уровне API Gateway для…
- answerКак вы проектируете multi-region active-active для LLM API?
…Пример реализации (схема) ``` Клиент (Россия) | v Cloudflare Global Load Balancer (GeoIP -> регион "eu-central") | +--> API Gateway (eu-central) | |--> Redis Cache…
- answerЧто такое rate limiting на разных уровнях (user, API key, IP, global) и как реализовать?
…Популярные готовые решения: [[Вики/Redis-based rate limiter\|Redis Rate Limiter]] (с Lua-скриптом), [[Вики/Kong\|API Gateway]] (Kong, AWS…
- answerКак бы вы добавили "отмену" (cancellation) для длительных LLM операций?
…API Gateway — DELETE /generations/{id} [[Вики/Gateway\|API Gateway]] предоставляет [[Вики/REST\|RESTful]] [[Вики/Эндпоинт\|эндпоинт]] для отмены. Пример эндпоинта…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать canary deployment агента с автооткатом
…v1`. - Создайте Service `agent-svc` (ClusterIP, порт 80 → 8080). - Создайте Gateway и VirtualService для доступа через Ingress Gateway. 4. Установите…
- wikiOpenTelemetry
…Как вы проектируете API для внешних систем, использующих вашу LLM|90. Как вы проектируете API для внешних систем, использующих вашу…
- answerКак вы проектируете API для внешних систем, использующих вашу LLM?
…Реализуется на уровне [[Вики/Gateway\|API Gateway]] ([[Вики/Kong\|Kong]], [[Вики/Kong\|NGINX]], [[Вики/Envoy\|Envoy]]) или внутри приложения (например…
- wikigraceful shutdown
…Что такое rate limiting на уровне API Gateway для LLM|829. Что такое rate limiting на уровне API Gateway для…
- wikiDocker Compose
…Как вы проектируете multi-region active-active для LLM API|247. Как вы проектируете multi-region active-active для LLM…
- wikiSliding window chunking
…Что такое rate limiting на уровне API Gateway для LLM|829. Что такое rate limiting на уровне API Gateway для…
- wikiLLM
…он применяется к LLM API вызовам]] - [[241. Как вы делаете distributed tracing для цепочки user → gateway → RAG → LLM → user|241…
- answerКак вы проектируете backpressure в LLM serving системе?
…application/json {"error": "Server overloaded, try again later"} ``` Клиент (или API gateway) должен прочитать Retry-After и подождать перед повторной…
- wikiмониторинг
…Как вы делаете distributed tracing для цепочки user → gateway → RAG → LLM → user|241. Как вы делаете distributed tracing для цепочки…
- wikiPrometheus
…Что такое circuit breaker и как он применяется к LLM API вызовам|237. Что такое circuit breaker и как он…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать автоматический postmortem
…для метрик; добавить несколько тестовых меток (`[[Вики/Service\|service]]="api-gateway"`, `[[Вики/Service\|service]]="user-service"`). 3. Развернуть `[[Вики/Jaeger…
- answerКак бы вы спроектировали систему для 1000 одновременных пользователей чат-бота с RAG?
…API Gateway (nginx), FastAPI с async-обработчиками, очередь Celery/RabbitMQ, инференс LLM через vLLM с batching|continuous batching, векторная БД…
- answerКак вы проектируете graceful shutdown для LLM serving pod в Kubernetes?
…Распространённые проблемы и решения | Проблема | Причина | Решение | |----------|---------|---------| | 502 Bad Gateway | Новые запросы попали на под, который уже завершается | Увеличить `sleep…
- answerКак вы проектируете RAG для 10k RPS с P99 latency <200ms? Архитектура.
…2. [[Вики/Kong\|API Gateway]]: аутентификация, rate limiting, маршрутизация. 3. Слой кэша: [[Вики/Redis Cluster\|Redis]] (или [[Вики/Memcached\|Memcached…
- answerКак вы снижаете стоимость LLM в production на 50%+?
…систему «LLM Gateway», которая снижает стоимость ответов на типовые вопросы поддержки. Инструменты - Python, FastAPI, Redis, Docker. - API: Groq (бесплатный), Together…
- answerКак вы делаете асинхронную обработку long-running (>30s) LLM задач?
…Архитектура ``` Client → API Gateway (202) → Task Queue (Celery/Kafka) → Worker pool (GPU pods) → Result Store (Redis/DB) ``` **Шаги:** 1. [[Вики…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Агент с cost tracking
…DAILY_SPEND.set(daily_spend(tracker)) push_to_gateway(gateway, job='llm_agent', registry=registry) ``` 3. Запустить [[Вики/pushgateway\|Pushgateway…
- answerКак бы вы спроектировали multi-tenant RAG (разные компании, изолированные данные)?
…Реализация рейт-лимитов - С помощью **API gateway** (например, NGINX + Lua, Kong) или библиотеки [[Вики/token bucket\|token bucket]] на стороне…
- answerКак организовать multi-region active-passive для LLM API?
…на активный регион | A-запись не активна, но готова | | API Gateway / Load Balancer | NLB/ALB us-east | NLB/ALB eu…
- answerЧто такое rate limiting на разных уровнях (user, API key, IP, global) и как реализовать?
…Уже есть в стеке | Медленнее, блокировки | | Cloud API Gateway (AWS API Gateway, Kong) | Готовое решение, масштабируется | Дорого, vendor lock-in…
- answerКак строить финансовую модель LLM-продукта для бизнеса?
…сервису. - Хостинг и сеть ([[Вики/CDN\|CDN]], [[Вики/Gateway\|API Gateway]], [[Вики/Load balancer\|load balancer]]). - Поддержка пользователей (Customer Support…