DPOP
DPOP
Определение
DPOP (Dual Policy Optimization) — это улучшение классического DPO, разработанное для сценариев, где одно предпочтение между двумя завершёнными траекториями (ответами) недостаточно информативно. Метод использует две политики (текущую и референсную) для более эффективного обучения, особенно в multi-turn или длинных ответах, где прямое сравнение пар ответов может терять контекст.