rate limiting
rate limiting
Определение
Механизм контроля частоты запросов к API (например, LLM провайдеров) для предотвращения превышения квот и защиты от перегрузок на разных уровнях (user, API key, IP, global).
Где встречается
- 46. Какие инструменты (toolsfunctions) дать агенту для автоматизации бизнес-задач (ваш кейс!)
- 59. n8n, Make, Zapier — как вы интегрируете их с LLM
- 62. Какие метрики вы мониторите для LLM в production
- 65. Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)
- 67. Что такое Prompt Injection и как вы защищаетесь
- 80. Какие 3 книгикурса вы рекомендуете по production LLM
- 81. Как бы вы спроектировали систему для 1000 одновременных пользователей чат-бота с RAG
- 83. Как спроектировать систему, где LLM должна работать с конфиденциальными данными (медицина, финансы)
- 89. Как вы спроектируете систему, которая может переключаться между разными LLM провайдерами без даунтайма
- 90. Как вы проектируете API для внешних систем, использующих вашу LLM
- 214. Как вы реализуете streaming в production с учетом network limitations
- 237. Что такое circuit breaker и как он применяется к LLM API вызовам
- 238. Как вы реализуете retry с exponential backoff для LLM API с rate limit
- 240. Как вы проектируете dead letter queue для failed LLM инференс запросов
- 244. Как вы проектируете backpressure в LLM serving системе
- 247. Как вы проектируете multi-region active-active для LLM API
- 248. Что такое rate limiting на разных уровнях (user, API key, IP, global) и как реализовать
- 249. Как вы делаете load shedding при перегрузке LLM сервера
- 250. Как вы делаете health check для LLM сервера с учетом модели (не только процесс)
- 351. Как работает model stealing attack и как защититься
- 384. Как вы проводим chaos engineering для RAG системы
- 404. Что такое circuit breaker и как он применяется к LLM API вызовам
- 407. Как вы проектируете dead letter queue для failed LLM инференс запросов
- 411. Как вы проектируете backpressure в LLM serving системе
- 413. Что такое sidecar pattern для LLM observability и как его реализовать
- 416. Как вы делаете load shedding при перегрузке LLM сервера
- 429. Что такое end-to-end backpressure в LLM пайплайне и как его реализовать
- 548. Что такое diffusion backends для генерации изображений (Stable Diffusion, Flux) и как их вызывать из агента
- 573. Как вы предотвращаете tool overuse (когда агент вызывает API даже когда не нужно)
- 587. Как работает agent with external tool verification (проверка результатов API)
- 596. Как работает model stealing attack (экстракция модели через API)
- 738. Назовите 12+ слоёв эталонной архитектуры Harness.
- 744. Что такое Agent Loop и какие компоненты входят в production-ready loop
- 751. Что такое Tool System в Harness (defineTool, registry, JSON schema validation, rate limiting)
- 758. Как вы проектируете Harness для mission-critical приложения Приведите пример с агентом для банковских переводов.
- 767. Как проектировать SLA между агентом-менеджером и агентами-исполнителями
- 775. Что такое Cost Engineering для LLM-систем
- 783. Как сравнивать cost efficiency разных LLM провайдеров
- 814. Как проектировать rate limiting на уровне сообщений
- 815. Что такое «dead letter queue» для сообщений агентов