Chain-of-Thought fine-tuning

Chain-of-Thought fine-tuning

Определение

Дообучение модели с использованием примеров, содержащих цепочку рассуждений. Учит агента генерировать объяснения, которые действительно используются для принятия решений.

Где встречается

Навигация