中文翻译暂不可用,显示俄语原文。

Quasar

Quasar

Определение

Архитектура для ускорения инференса LLM, в которой этап верификации speculative decoding выполняется с использованием low-bit квантизации (например, INT4). Позволяет достичь ускорения до 1.28x при сохранении качества.

Где встречается

Навигация