Dynamic Quantization

Dynamic Quantization

Определение

Метод квантизации, при котором веса модели преобразуются в INT8 при загрузке, а активации остаются в FP32; прост в реализации, но даёт меньший прирост скорости по сравнению с другими видами квантизации.

Где встречается

Навигация