tokens per second
tokens per second
Определение
Метрика пропускной способности инференса, измеряющая количество генерируемых токенов в секунду. Используется для сравнения скорости работы LLM-эндпоинтов.
Где встречается
- 157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
- 159. Как speculative decoding взаимодействует с KV cache
- 800+ вопросов
- 215. Настроить expert parallelism для Mixtral
- 220. Настроить wave decoding для коротких ответов
- 224. vLLM кластер на 4 GPU