DPOP

DPOP

Определение

DPOP (Dual Policy Optimization) — это улучшение классического DPO, разработанное для сценариев, где одно предпочтение между двумя завершёнными траекториями (ответами) недостаточно информативно. Метод использует две политики (текущую и референсную) для более эффективного обучения, особенно в multi-turn или длинных ответах, где прямое сравнение пар ответов может терять контекст.

Где встречается

Навигация