中文翻译暂不可用,显示俄语原文。
QLoRA
QLoRA
Определение
Метод параметро-эффективного fine-tuning, объединяющий 4-битную квантизацию весов модели и Low-Rank Adaptation (LoRA) для значительного снижения потребления памяти, позволяющий обучать большие модели (до 70B параметров) на одной 24GB GPU.
Где встречается
- 22. Какие методы fine-tuning вы знаете и какой используете чаще всего
- 26. Как вы предотвращаете catastrophic forgetting при fine-tuning
- 29. Как fine-tune модель для следования сложным инструкциям
- 32. Как вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами
- 33. Какие фреймворки для fine-tuning вы используете
- 78. Какие LLM для русского языка вы используете
- 433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
- 444. Почему 4-bit inference иногда медленнее 8-bit
- 468. Почему small batch size (32) ухудшает training стабильность
- 469. Как работает Mixed Precision Training (FP16 + FP32 master веса)
- 481. Что такое LoRA для training (инференс уже знаем)
- 482. Как работает QLoRA (Quantized LoRA) для training
- 484. Что такое ReFT (Representation Fine-Tuning) и когда он лучше LoRA
- 579. Как работает agent replay для улучшения качества (анализ failed траекторий)
- 699. Как вы оцениваете, сколько синтетических данных нужно для fine-tuning (power analysis)
- 780. Как измерять ROI от fine-tuning (окупается ли дообучение более дешёвым инференсом)
- Практика
- 800+ вопросов
- 223. Fine-tune LoRA для стиля
- 235. LoRA для function calling
- 244. Fine-tune QLoRA на 1 GPU