AlpacaEval

Определение

Автоматический бенчмарк для оценки моделей, использующий pairwise сравнения с LLM-судьёй (например, GPT-4) для вычисления win rate на тестовых инструкциях.

Где встречается

172. Что такое LiveIdeaBench и для чего он нужен
331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)
336. Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO
486. Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.
488. Что такое benchmark contamination и как ее детектировать
871. Как делать pairwise ranking для сравнения моделей
800+ вопросов
284. Настроить pairwise evaluation для моделей

AlpacaEval

AlpacaEval

Определение

Где встречается

Навигация