English translation is not available yet. Showing Russian content.
TTFT
TTFT
Определение
Время от отправки запроса до получения первого сгенерированного токена. Ключевая метрика задержки LLM инференса, соответствует времени prefill.
Где встречается
- 7. Как вы уменьшаете latency RAG-системы (время ответа)
- 72. OpenAI vs Антропик vs Groq vs Self-hosted — что выбираете
- 157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
- 205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
- 210. Что такое chunked prefill и зачем он нужен
- 211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
- 216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
- 218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 220. Как вы выбираете между online и batch инференсом для LLM
- 241. Как вы делаете distributed tracing для цепочки user → gateway → RAG → LLM → user
- 277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
- 300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
- 364. Как вы строите real-time voice agent с latency 500ms
- 381. Как вы определяете SLO и SLA для LLM сервиса
- 436. В чем разница между prefill и decode stage в LLM инференсе
- 442. Что такое prefix caching и когда он эффективен
- 446. Что такое chunked prefill и зачем он нужен
- 455. Как вы выбираете между online и batch инференсом для LLM
- 544. Как вы строите real-time voice agent с latency 500ms
- 709. NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving
- 783. Как сравнивать cost efficiency разных LLM провайдеров
- 847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)
- 849. Что такое expert parallelism для MoE моделей (Mixtral)
- Практика
- 800+ вопросов
- 59. Сравнить архитектуры на reasoning задачах
- 68. Настроить inference-time scaling
- 71. Рассчитать cost per 1M tokens для разных моделей
- 206. Развернуть vLLM vs TGI, сравнить throughput
- 215. Настроить expert parallelism для Mixtral
- 219. Сравнить inference schedulers (FCFS vs Priority)
- 220. Настроить wave decoding для коротких ответов
- 224. vLLM кластер на 4 GPU
- 255. Настроить correlation метрик