Locust
Locust
Определение
Инструмент нагрузочного тестирования на Python с событийно-ориентированной архитектурой, используется для load testing LLM endpoint и проверки streaming под нагрузкой.
Где встречается
- 64. Как вы обеспечиваете низкую задержку (500ms) для LLM
- 65. Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)
- 81. Как бы вы спроектировали систему для 1000 одновременных пользователей чат-бота с RAG
- 214. Как вы реализуете streaming в production с учетом network limitations
- 216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
- 220. Как вы выбираете между online и batch инференсом для LLM
- 249. Как вы делаете load shedding при перегрузке LLM сервера
- 264. Как вы делаете backfill эмбеддингов при смене embedding модели
- 305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
- 381. Как вы определяете SLO и SLA для LLM сервиса
- 403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
- 411. Как вы проектируете backpressure в LLM serving системе
- 416. Как вы делаете load shedding при перегрузке LLM сервера
- 509. Как вы сравниваете две модели, если у них разная latency (быстрая неточная vs медленная точная)
- 767. Как проектировать SLA между агентом-менеджером и агентами-исполнителями
- 799. Как интегрировать тестирование агентов в CICD
- 825. Что такое autoscaling inference и как его настроить
- 800+ вопросов
- 20. Настроить sharding для petabyte embeddings
- 35. Реализовать cache stampede защиту
- 37. Реализовать sharded cache на 10+ нод
- 72. Настроить capacity planning для GPU кластера
- 74. Настроить auto-scaling для vLLM
- 85. Спроектировать escalation system
- 86. Реализовать user feedback loop
- 99. Написать postmortem для cache stampede
- 132. Настроить cost tracking в production
- 164. Настроить canary deployment промптов
- 180. Настроить rate limiting на сообщения
- 189. Реализовать compression сообщений
- 192. Настроить autoscaling для LLM сервера
- 198. Настроить multi-region active-passive
- 203. Реализовать retry storm mitigation
- 225. Semantic cache для RAG
- 250. Полный production агент
- 254. Реализовать SLO для RAG
- 255. Настроить correlation метрик
- 258. Настроить write-through cache
- 295. Настроить coordination metrics