GGUF

Определение

Формат квантизации моделей, оптимизированный для инференса на CPU и edge-устройствах (например, через llama.cpp). Поддерживает 2-8 битное квантование, обеспечивая компромисс между размером, скоростью и качеством.

Где встречается

33. Какие фреймворки для fine-tuning вы используете
80. Какие 3 книгикурса вы рекомендуете по production LLM
443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.
444. Почему 4-bit inference иногда медленнее 8-bit
562. Как работает whisper.cpp для локального ASR с low latency
666. Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать
847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)
800+ вопросов
296. RAG с векторной БД на CPU (ChromaQdrant)

GGUF

GGUF

Определение

Где встречается

Навигация