English translation is not available yet. Showing Russian content.
4-bit quantization
4-bit quantization
Определение
Техника сжатия модели, при которой веса представляются 4 битами. Используется в QLoRA для уменьшения потребления памяти при обучении и инференсе. NF4 — специализированный формат для минимальной потери качества.
Где встречается
- 482. Как работает QLoRA (Quantized LoRA) для training
- 642. Как вы реализуете KV cache для 1M токенов на 8x H100
- Практика
- 800+ вопросов
- 51. Развернуть Mamba-2 локально
- 244. Fine-tune QLoRA на 1 GPU