Per-token latency

Определение

Задержка генерации каждого последующего токена после первого при инференсе LLM; ключевая метрика производительности.