中文翻译暂不可用,显示俄语原文。
4-bit inference
4-bit inference
Определение
Инференс модели с весами, квантованными до 4 бит. Может быть медленнее 8-bit при малых batch size из-за накладных расходов на деквантование.
中文翻译暂不可用,显示俄语原文。
Инференс модели с весами, квантованными до 4 бит. Может быть медленнее 8-bit при малых batch size из-за накладных расходов на деквантование.