English translation is not available yet. Showing Russian content.
Quasar
Quasar
Определение
Архитектура для ускорения инференса LLM, в которой этап верификации speculative decoding выполняется с использованием low-bit квантизации (например, INT4). Позволяет достичь ускорения до 1.28x при сохранении качества.
Где встречается
- 157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
- 162. Что такое Quasar и как quantized verification ускоряет инференс
- 800+ вопросов