Оглавление
Вопросы
Практика
Вики
Материалы сообщества
Тесты
Поиск

✈Telegram @ai_varo

…

Оглавление/Вики/Locust

Locust

Locust

Определение

Инструмент нагрузочного тестирования на Python с событийно-ориентированной архитектурой, используется для load testing LLM endpoint и проверки streaming под нагрузкой.

Где встречается

64. Как вы обеспечиваете низкую задержку (500ms) для LLM
65. Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)
81. Как бы вы спроектировали систему для 1000 одновременных пользователей чат-бота с RAG
214. Как вы реализуете streaming в production с учетом network limitations
216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
220. Как вы выбираете между online и batch инференсом для LLM
249. Как вы делаете load shedding при перегрузке LLM сервера
264. Как вы делаете backfill эмбеддингов при смене embedding модели
305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
381. Как вы определяете SLO и SLA для LLM сервиса
403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
411. Как вы проектируете backpressure в LLM serving системе
416. Как вы делаете load shedding при перегрузке LLM сервера
509. Как вы сравниваете две модели, если у них разная latency (быстрая неточная vs медленная точная)
767. Как проектировать SLA между агентом-менеджером и агентами-исполнителями
799. Как интегрировать тестирование агентов в CICD
825. Что такое autoscaling inference и как его настроить
800+ вопросов
20. Настроить sharding для petabyte embeddings
35. Реализовать cache stampede защиту
37. Реализовать sharded cache на 10+ нод
72. Настроить capacity planning для GPU кластера
74. Настроить auto-scaling для vLLM
85. Спроектировать escalation system
86. Реализовать user feedback loop
99. Написать postmortem для cache stampede
132. Настроить cost tracking в production
164. Настроить canary deployment промптов
180. Настроить rate limiting на сообщения
189. Реализовать compression сообщений
192. Настроить autoscaling для LLM сервера
198. Настроить multi-region active-passive
203. Реализовать retry storm mitigation
225. Semantic cache для RAG
250. Полный production агент
254. Реализовать SLO для RAG
255. Настроить correlation метрик
258. Настроить write-through cache
295. Настроить coordination metrics

Навигация

Индекс терминов
Индекс разборов
Оглавление