中文翻译暂不可用,显示俄语原文。
Imitation learning
Imitation learning
Определение
Метод обучения модели, при котором она копирует поведение эксперта на демонстрациях; используется как начальный этап для борьбы с разреженными наградами или обучения цепочек рассуждений.
Где встречается
- 334. Как вы делаете online RL для агентов (self-improvement loops)
- 637. Что такое Chain-of-Thought без токенов (latent CoT, COCONUT)