中文翻译暂不可用,显示俄语原文。

GPTQ

GPTQ

Определение

Метод квантизации весов LLM для GPU, typically 2–4 бита, с оптимизацией через Hessian. Требует калибровки на датасете, обеспечивает высокое качество (до 98%) и ускорение инференса.

Где встречается

Навигация