off-policy

Определение

Свойство алгоритма обучения с подкреплением, при котором данные собираются из политики, отличной от текущей, что позволяет использовать статические датасеты без онлайн-взаимодействия.

Где встречается

36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
335. Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)
108. Реализовать partial harnessing

off-policy

off-policy

Определение

Где встречается

Навигация