Chain-of-Thought fine-tuning
Chain-of-Thought fine-tuning
Определение
Дообучение модели с использованием примеров, содержащих цепочку рассуждений. Учит агента генерировать объяснения, которые действительно используются для принятия решений.
Дообучение модели с использованием примеров, содержащих цепочку рассуждений. Учит агента генерировать объяснения, которые действительно используются для принятия решений.