TTFT
TTFT
Определение
Время от отправки запроса до получения первого сгенерированного токена. Ключевая метрика задержки LLM инференса, соответствует времени prefill.
Где встречается
- 7. Как вы уменьшаете latency RAG-системы (время ответа)
- 72. OpenAI vs Антропик vs Groq vs Self-hosted — что выбираете
- 157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
- 205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
- 210. Что такое chunked prefill и зачем он нужен
- 211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
- 216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
- 218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 220. Как вы выбираете между online и batch инференсом для LLM
- 241. Как вы делаете distributed tracing для цепочки user → gateway → RAG → LLM → user
- 277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
- 300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
- 364. Как вы строите real-time voice agent с latency 500ms
- 381. Как вы определяете SLO и SLA для LLM сервиса
- 436. В чем разница между prefill и decode stage в LLM инференсе
- 442. Что такое prefix caching и когда он эффективен
- 446. Что такое chunked prefill и зачем он нужен
- 455. Как вы выбираете между online и batch инференсом для LLM
- 544. Как вы строите real-time voice agent с latency 500ms
- 709. NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving
- 783. Как сравнивать cost efficiency разных LLM провайдеров
- 847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)
- 849. Что такое expert parallelism для MoE моделей (Mixtral)
- Практика
- 800+ вопросов
- 59. Сравнить архитектуры на reasoning задачах
- 68. Настроить inference-time scaling
- 71. Рассчитать cost per 1M tokens для разных моделей
- 206. Развернуть vLLM vs TGI, сравнить throughput
- 215. Настроить expert parallelism для Mixtral
- 219. Сравнить inference schedulers (FCFS vs Priority)
- 220. Настроить wave decoding для коротких ответов
- 224. vLLM кластер на 4 GPU
- 255. Настроить correlation метрик