bitsandbytes

Определение

Библиотека для быстрой квантизации моделей PyTorch, поддерживающая 4-битные форматы, используется в QLoRA и для снижения потребления памяти до 96% качества при 0.9x скорости.

Где встречается

29. Как fine-tune модель для следования сложным инструкциям
33. Какие фреймворки для fine-tuning вы используете
61. Как вы разворачиваете LLM в production (self-hosted)
70. Как вы снижаете стоимость LLM в production на 50%+
87. Как вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов
157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
162. Что такое Quasar и как quantized verification ускоряет инференс
443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.
444. Почему 4-bit inference иногда медленнее 8-bit
482. Как работает QLoRA (Quantized LoRA) для training
548. Что такое diffusion backends для генерации изображений (Stable Diffusion, Flux) и как их вызывать из агента
642. Как вы реализуете KV cache для 1M токенов на 8x H100
666. Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать
847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)
800+ вопросов
206. Развернуть vLLM vs TGI, сравнить throughput
223. Fine-tune LoRA для стиля
235. LoRA для function calling
244. Fine-tune QLoRA на 1 GPU

bitsandbytes

bitsandbytes

Определение

Где встречается

Навигация