OpenAI Evals

Определение

Набор стандартизированных бенчмарков и фреймворк для создания кастомных бенчмарков с поддержкой LLM-судей, используется для оценки качества LLM и синтетических данных.

Где встречается

178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)
344. Что такое reward hacking в RLHF и как его детектировать
488. Что такое benchmark contamination и как ее детектировать
686. Как работает synthetic data для RLHF (предпочтения)
695. Как вы делаете synthetic data для multi-turn диалогов (агентов)

OpenAI Evals

OpenAI Evals

Определение

Где встречается

Навигация