Elo rating
Elo rating
Определение
Турнирная система рейтинга на основе попарных сравнений, используемая для ранжирования ответов моделей.
Где встречается
- 331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)
- 333. Что такое preference data collection и как минимизировать bias в сравнениях
- 495. Что такое pairwise comparison vs scalar rating Когда что использовать
- 506. Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации
- 871. Как делать pairwise ranking для сравнения моделей
- Практика
- 800+ вопросов
- 284. Настроить pairwise evaluation для моделей