back-translation
back-translation
Определение
Метод аугментации данных, при котором текст переводится на промежуточный язык (обычно английский) и обратно на исходный. Позволяет получать парафразы и увеличивать разнообразие обучающего набора.
Где встречается
- 24. Какой размер датасета нужен для fine-tuning
- 25. Как вы оцениваете качество после fine-tuning
- 32. Как вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами
- 34. Какая у вас была самая сложная проблема при fine-tuning и как вы её решили
- 37. Как вы избегаете переобучения при fine-tuning на маленьком датасете
- 86. Как вы решаете проблему “я знаю, что ответ есть в документах, но retrieval не находит”
- 523. Как вы делаете synthetic data generation для редких классов в датасете
- 681. Как вы генерируете синтетический датасет для instruction tuning Self-instruct, Evol-Instruct
- 683. Что такое data augmentation для LLM (back-translation, paraphrasing, masking)
- 700. Как вы комбинируете реальные и синтетические данные для максимального качества
- Практика
- 800+ вопросов