GGUF
GGUF
Определение
Формат квантизации моделей, оптимизированный для инференса на CPU и edge-устройствах (например, через llama.cpp). Поддерживает 2-8 битное квантование, обеспечивая компромисс между размером, скоростью и качеством.
Где встречается
- 33. Какие фреймворки для fine-tuning вы используете
- 80. Какие 3 книгикурса вы рекомендуете по production LLM
- 443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.
- 444. Почему 4-bit inference иногда медленнее 8-bit
- 562. Как работает whisper.cpp для локального ASR с low latency
- 666. Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать
- 847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)
- 800+ вопросов
- 296. RAG с векторной БД на CPU (ChromaQdrant)