Latency

Определение

Время от отправки запроса до получения ответа от LLM, измеряемое в перцентилях (p50, p95, p99). Является ключевой метрикой для production-систем, влияющей на пользовательский опыт и подлежащей минимизации.

Где встречается

46. Какие инструменты (toolsfunctions) дать агенту для автоматизации бизнес-задач (ваш кейс!)
49. Как вы дебажите агента, который делает неправильные действия
51. Как вы передаёте контекст между несколькими агентами (multi-agent system)
77. Как вы оптимизируете embedding генерацию для большого количества документов
78. Какие LLM для русского языка вы используете
79. Как вы обновляете embedding модель без полной переиндексации
80. Какие 3 книгикурса вы рекомендуете по production LLM
81. Как бы вы спроектировали систему для 1000 одновременных пользователей чат-бота с RAG
82. Как бы вы спроектировали систему для реального времени (real-time) обработки документов
91. Что такое Semantic Caching и как вы его реализуете
104. Как вы интегрируете DSPy с RAG-пайплайном Приведите пример сигнатуры.
109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production
117. Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind
129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)
136. Как вы AB тестируете две версии промпта в production
141. В чем разница между Naive RAG, Adaptive RAG и Agentic RAG
142. Как вы проектируете «планировщика» (planner) для Agentic RAG
145. LangGraph vs CrewAI vs AutoGen — что вы выберете и для каких задач
148. Как вы измеряете стоимость агента в production (не только токены)
149. Как спроектировать агента, который может самоисправляться (self-correction)
151. Что такое тест-тайм компьютинг (Test-Time Compute) и чем он отличается от обычного инференса
156. Как вы выбираете между увеличением тест-тайм компьютинга и использованием большей модели
159. Как speculative decoding взаимодействует с KV cache
162. Что такое Quasar и как quantized verification ускоряет инференс
164. Какие trade-offs между разными архитектурами speculative decoding
201. Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI
203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
210. Что такое chunked prefill и зачем он нужен
215. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
231. Как вы обновляете ANN индекс при добавлении новых векторов без перестроения
232. Что такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (16GB)
233. Как вы делаете hybrid search (vector + keyword) в production на 10M документов
244. Как вы проектируете backpressure в LLM serving системе
249. Как вы делаете load shedding при перегрузке LLM сервера
250. Как вы делаете health check для LLM сервера с учетом модели (не только процесс)
256. Как вы проектируете ETL пайплайн для 1M документовдень в RAG систему
257. Как вы дедуплицируете документы перед индексацией в RAG
264. Как вы делаете backfill эмбеддингов при смене embedding модели

Latency

Latency

Определение

Где встречается

Навигация

Latency

Latency

Определение

Где встречается

Навигация