AlpacaEval
AlpacaEval
Определение
Автоматический бенчмарк для оценки моделей, использующий pairwise сравнения с LLM-судьёй (например, GPT-4) для вычисления win rate на тестовых инструкциях.
Где встречается
- 172. Что такое LiveIdeaBench и для чего он нужен
- 331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)
- 336. Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO
- 486. Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.
- 488. Что такое benchmark contamination и как ее детектировать
- 871. Как делать pairwise ranking для сравнения моделей
- 800+ вопросов
- 284. Настроить pairwise evaluation для моделей