OpenAssistant Conversations
OpenAssistant Conversations
Определение
OpenAssistant Conversations (oasst1) — это крупномасштабный датасет диалогов, собранный с участием людей для обучения моделей-ассистентов с открытым исходным кодом. Он содержит пары «промпт + хороший ответ», а также оценки качества ответов. Используется для fine-tuning на инструкции и обучения с подкреплением на основе человеческой обратной связи (RLHF).
Где встречается
- 963. Какие данные нужны для fine-tuning на инструкции (instruction tuning)? Формат: (инструкция, контекст, ответ)
- 981. Что такое RLHF (Reinforcement Learning from Human Feedback) в 3 шагах? (SFT, Reward Model, RL)