QLoRA

Определение

Метод параметро-эффективного fine-tuning, объединяющий 4-битную квантизацию весов модели и Low-Rank Adaptation (LoRA) для значительного снижения потребления памяти, позволяющий обучать большие модели (до 70B параметров) на одной 24GB GPU.

Где встречается

22. Какие методы fine-tuning вы знаете и какой используете чаще всего
26. Как вы предотвращаете catastrophic forgetting при fine-tuning
29. Как fine-tune модель для следования сложным инструкциям
32. Как вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами
33. Какие фреймворки для fine-tuning вы используете
78. Какие LLM для русского языка вы используете
433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
444. Почему 4-bit inference иногда медленнее 8-bit
468. Почему small batch size (32) ухудшает training стабильность
469. Как работает Mixed Precision Training (FP16 + FP32 master веса)
481. Что такое LoRA для training (инференс уже знаем)
482. Как работает QLoRA (Quantized LoRA) для training
484. Что такое ReFT (Representation Fine-Tuning) и когда он лучше LoRA
579. Как работает agent replay для улучшения качества (анализ failed траекторий)
699. Как вы оцениваете, сколько синтетических данных нужно для fine-tuning (power analysis)
780. Как измерять ROI от fine-tuning (окупается ли дообучение более дешёвым инференсом)
Практика
800+ вопросов
223. Fine-tune LoRA для стиля
235. LoRA для function calling
244. Fine-tune QLoRA на 1 GPU

QLoRA

QLoRA

Определение

Где встречается

Навигация