中文翻译暂不可用,显示俄语原文。
Quasar
Quasar
Определение
Архитектура для ускорения инференса LLM, в которой этап верификации speculative decoding выполняется с использованием low-bit квантизации (например, INT4). Позволяет достичь ускорения до 1.28x при сохранении качества.
Где встречается
- 157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
- 162. Что такое Quasar и как quantized verification ускоряет инференс
- 800+ вопросов