Per-token latency
Per-token latency
Определение
Задержка генерации каждого последующего токена после первого при инференсе LLM; ключевая метрика производительности.
Задержка генерации каждого последующего токена после первого при инференсе LLM; ключевая метрика производительности.