中文翻译暂不可用,显示俄语原文。
Alpaca
Alpaca
Определение
Открытый синтетический датасет инструкций (52k примеров), сгенерированных через Self-Instruct, используемый для fine-tuning моделей следования инструкциям. Формат включает поля instruction, input, output.
Где встречается
- 29. Как fine-tune модель для следования сложным инструкциям
- 32. Как вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами
- 138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
- 326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
- 482. Как работает QLoRA (Quantized LoRA) для training
- 95. Написать runbook для synthetic data collapse