Оглавление
Вопросы
Практика
Вики
Материалы сообщества
Тесты
Поиск

✈Telegram @ai_varo

…

Оглавление/Вики/TTFT

TTFT

TTFT

Определение

Время от отправки запроса до получения первого сгенерированного токена. Ключевая метрика задержки LLM инференса, соответствует времени prefill.

Где встречается

7. Как вы уменьшаете latency RAG-системы (время ответа)
72. OpenAI vs Антропик vs Groq vs Self-hosted — что выбираете
157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
210. Что такое chunked prefill и зачем он нужен
211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
220. Как вы выбираете между online и batch инференсом для LLM
241. Как вы делаете distributed tracing для цепочки user → gateway → RAG → LLM → user
277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
364. Как вы строите real-time voice agent с latency 500ms
381. Как вы определяете SLO и SLA для LLM сервиса
436. В чем разница между prefill и decode stage в LLM инференсе
442. Что такое prefix caching и когда он эффективен
446. Что такое chunked prefill и зачем он нужен
455. Как вы выбираете между online и batch инференсом для LLM
544. Как вы строите real-time voice agent с latency 500ms
709. NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving
783. Как сравнивать cost efficiency разных LLM провайдеров
847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)
849. Что такое expert parallelism для MoE моделей (Mixtral)
Практика
800+ вопросов
59. Сравнить архитектуры на reasoning задачах
68. Настроить inference-time scaling
71. Рассчитать cost per 1M tokens для разных моделей
206. Развернуть vLLM vs TGI, сравнить throughput
215. Настроить expert parallelism для Mixtral
219. Сравнить inference schedulers (FCFS vs Priority)
220. Настроить wave decoding для коротких ответов
224. vLLM кластер на 4 GPU
255. Настроить correlation метрик

Навигация

Индекс терминов
Индекс разборов
Оглавление