Rejection Sampling
Rejection Sampling
Определение
Rejection Sampling (семплирование отклонением) — это метод выборки из сложного распределения путем отбора образцов из более простого распределения и отклонения тех, которые не удовлетворяют определенным критериям. В контексте RLHF и обучения с подкреплением на основе человеческих предпочтений, Rejection Sampling используется для отбора лучших ответов модели, ранжированных с помощью reward model. Это позволяет улучшить качество генерируемых ответов, отбрасывая низкоранговые варианты.