中文翻译暂不可用,显示俄语原文。
Data augmentation
Data augmentation
Определение
Метод увеличения размера датасета путём создания синтетических примеров, например перефразирование или back-translation, для повышения разнообразия и устойчивости модели.
Где встречается
- 24. Какой размер датасета нужен для fine-tuning
- 25. Как вы оцениваете качество после fine-tuning
- 28. Какие данные нужны для fine-tuning на кастомный стиль общения
- 32. Как вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами
- 37. Как вы избегаете переобучения при fine-tuning на маленьком датасете
- 129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)
- 258. Что такое weak supervision для разметки данных для fine-tuning и как его применить
- 259. Как вы генерируете synthetic данные для instruction tuning
- 261. Как вы управляете качеством разметки (label quality) для DPO датасетов
- 355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
- 514. Как вы генерируете synthetic данные для instruction tuning
- 523. Как вы делаете synthetic data generation для редких классов в датасете
- 600. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
- 613. Как работает model watermarking для LLM (идентификация модели-источника)
- 678. Как работает greedy decoding vs beam search vs sampling
- 683. Что такое data augmentation для LLM (back-translation, paraphrasing, masking)
- 690. Как вы измеряете diversity синтетического датасета
- 695. Как вы делаете synthetic data для multi-turn диалогов (агентов)
- 700. Как вы комбинируете реальные и синтетические данные для максимального качества
- 786. Что такое «golden dataset» для агента и как его создавать
- 866. Как генерировать synthetic датасеты для RAG evaluation
- Практика
- 800+ вопросов
- 223. Fine-tune LoRA для стиля
- 229. Fine-tune embedding под домен
- 267. Реализовать Evol-Instruct для instruction tuning
- 274. Настроить self-training с псевдо-метками