low-bit quantization
low-bit quantization
Определение
Представление весов и/или активаций модели с использованием меньшего числа бит (например, 4 бита), что ускоряет инференс и снижает потребление памяти за счёт некоторой потери точности.
Представление весов и/или активаций модели с использованием меньшего числа бит (например, 4 бита), что ускоряет инференс и снижает потребление памяти за счёт некоторой потери точности.