RLAIF

RLAIF

Определение

Метод обучения с подкреплением, где обратная связь для награды генерируется AI вместо человека, что позволяет масштабировать процесс выравнивания модели.

Где встречается

Навигация