English translation is not available yet. Showing Russian content.
Latency
Latency
Определение
Время от отправки запроса до получения ответа от LLM, измеряемое в перцентилях (p50, p95, p99). Является ключевой метрикой для production-систем, влияющей на пользовательский опыт и подлежащей минимизации.
Где встречается
- 46. Какие инструменты (toolsfunctions) дать агенту для автоматизации бизнес-задач (ваш кейс!)
- 49. Как вы дебажите агента, который делает неправильные действия
- 51. Как вы передаёте контекст между несколькими агентами (multi-agent system)
- 77. Как вы оптимизируете embedding генерацию для большого количества документов
- 78. Какие LLM для русского языка вы используете
- 79. Как вы обновляете embedding модель без полной переиндексации
- 80. Какие 3 книгикурса вы рекомендуете по production LLM
- 81. Как бы вы спроектировали систему для 1000 одновременных пользователей чат-бота с RAG
- 82. Как бы вы спроектировали систему для реального времени (real-time) обработки документов
- 91. Что такое Semantic Caching и как вы его реализуете
- 104. Как вы интегрируете DSPy с RAG-пайплайном Приведите пример сигнатуры.
- 109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production
- 117. Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind
- 129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)
- 136. Как вы AB тестируете две версии промпта в production
- 141. В чем разница между Naive RAG, Adaptive RAG и Agentic RAG
- 142. Как вы проектируете «планировщика» (planner) для Agentic RAG
- 145. LangGraph vs CrewAI vs AutoGen — что вы выберете и для каких задач
- 148. Как вы измеряете стоимость агента в production (не только токены)
- 149. Как спроектировать агента, который может самоисправляться (self-correction)
- 151. Что такое тест-тайм компьютинг (Test-Time Compute) и чем он отличается от обычного инференса
- 156. Как вы выбираете между увеличением тест-тайм компьютинга и использованием большей модели
- 159. Как speculative decoding взаимодействует с KV cache
- 162. Что такое Quasar и как quantized verification ускоряет инференс
- 164. Какие trade-offs между разными архитектурами speculative decoding
- 201. Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI
- 203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
- 205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
- 207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
- 210. Что такое chunked prefill и зачем он нужен
- 215. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
- 231. Как вы обновляете ANN индекс при добавлении новых векторов без перестроения
- 232. Что такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (16GB)
- 233. Как вы делаете hybrid search (vector + keyword) в production на 10M документов
- 244. Как вы проектируете backpressure в LLM serving системе
- 249. Как вы делаете load shedding при перегрузке LLM сервера
- 250. Как вы делаете health check для LLM сервера с учетом модели (не только процесс)
- 256. Как вы проектируете ETL пайплайн для 1M документовдень в RAG систему
- 257. Как вы дедуплицируете документы перед индексацией в RAG
- 264. Как вы делаете backfill эмбеддингов при смене embedding модели