English translation is not available yet. Showing Russian content.
low-bit quantization
low-bit quantization
Определение
Представление весов и/или активаций модели с использованием меньшего числа бит (например, 4 бита), что ускоряет инференс и снижает потребление памяти за счёт некоторой потери точности.