中文翻译暂不可用,显示俄语原文。

iterated RLHF

iterated RLHF

Определение

Процесс повторного сбора человеческих предпочтений и дообучения модели вознаграждения после каждого раунда RLHF для улучшения политики.

Где встречается

Навигация