Synthetic data
Synthetic data
Определение
Синтетические данные — это искусственно сгенерированные данные, имитирующие свойства реальных данных, но не содержащие реальных записей. Они часто создаются с помощью генеративных моделей, таких как LLM, и позволяют расширять датасеты для обучения моделей без ручной разметки. В контексте instruction tuning синтетическая генерация используется для автоматического создания пар «инструкция-ответ» на основе небольшого набора примеров.
Где встречается
- 964. Как вы генерируете синтетический датасет для instruction tuning (Self-Instruct, Evol-Instruct)?