off-policy
off-policy
Определение
Свойство алгоритма обучения с подкреплением, при котором данные собираются из политики, отличной от текущей, что позволяет использовать статические датасеты без онлайн-взаимодействия.
Где встречается
- 36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
- 335. Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)
- 108. Реализовать partial harnessing