bitsandbytes 4-bit quantization
bitsandbytes 4-bit quantization
Определение
Метод снижения потребления памяти GPU за счёт квантизации модели до 4-битной точности, позволяющий одновременно загружать несколько моделей.
Метод снижения потребления памяти GPU за счёт квантизации модели до 4-битной точности, позволяющий одновременно загружать несколько моделей.