中文翻译暂不可用,显示俄语原文。
Weight-only quantization
Weight-only quantization
Определение
Квантизация только весов модели с сохранением активаций в FP16. Позволяет ускорить инференс и уменьшить потребление памяти без значительной потери точности.
中文翻译暂不可用,显示俄语原文。
Квантизация только весов модели с сохранением активаций в FP16. Позволяет ускорить инференс и уменьшить потребление памяти без значительной потери точности.