TPOT
TPOT
Определение
Метрика задержки инференса LLM, показывающая среднее время генерации одного выходного токена после первого.
Где встречается
- 7. Как вы уменьшаете latency RAG-системы (время ответа)
- 211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
- 216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
- 300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
- 436. В чем разница между prefill и decode stage в LLM инференсе
- 442. Что такое prefix caching и когда он эффективен
- 800+ вопросов
- 255. Настроить correlation метрик