Alpaca

Определение

Открытый синтетический датасет инструкций (52k примеров), сгенерированных через Self-Instruct, используемый для fine-tuning моделей следования инструкциям. Формат включает поля instruction, input, output.

Где встречается

29. Как fine-tune модель для следования сложным инструкциям
32. Как вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами
138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
482. Как работает QLoRA (Quantized LoRA) для training
95. Написать runbook для synthetic data collapse

Alpaca

Alpaca

Определение

Где встречается

Навигация