AlpacaEval

AlpacaEval

Определение

Автоматический бенчмарк для оценки моделей, использующий pairwise сравнения с LLM-судьёй (например, GPT-4) для вычисления win rate на тестовых инструкциях.

Где встречается

Навигация