English translation is not available yet. Showing Russian content.
Per-token latency
Per-token latency
Определение
Задержка генерации каждого последующего токена после первого при инференсе LLM; ключевая метрика производительности.
English translation is not available yet. Showing Russian content.
Задержка генерации каждого последующего токена после первого при инференсе LLM; ключевая метрика производительности.