NormalFloat4
NormalFloat4
Определение
4-битный формат квантизации с нормальным распределением, используемый в QLoRA. Минимизирует ошибку квантования для нормально распределённых весов, позволяя загружать большие модели на одну GPU.
Где встречается
- 22. Какие методы fine-tuning вы знаете и какой используете чаще всего
- 61. Как вы разворачиваете LLM в production (self-hosted)
- 433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
- 444. Почему 4-bit inference иногда медленнее 8-bit
- 482. Как работает QLoRA (Quantized LoRA) для training
- 847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)
- 209. Настроить AWQ quantization для LLM