OpenAI Evals
OpenAI Evals
Определение
Набор стандартизированных бенчмарков и фреймворк для создания кастомных бенчмарков с поддержкой LLM-судей, используется для оценки качества LLM и синтетических данных.
Где встречается
- 178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
- 341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)
- 344. Что такое reward hacking в RLHF и как его детектировать
- 488. Что такое benchmark contamination и как ее детектировать
- 686. Как работает synthetic data для RLHF (предпочтения)
- 695. Как вы делаете synthetic data для multi-turn диалогов (агентов)