closed-form solution
closed-form solution
Определение
Решение, которое даёт возможность напрямую вычислить оптимальную политику, минуя итеративное обучение модели вознаграждения. Применяется в методах вроде DPO.
Решение, которое даёт возможность напрямую вычислить оптимальную политику, минуя итеративное обучение модели вознаграждения. Применяется в методах вроде DPO.