rule-based reward model

Определение

Модель награды, основанная на заданных правилах, а не на обучении; применяется, например, для оценки безопасности ответов GPT-4.