中文翻译暂不可用,显示俄语原文。
LMSys Chatbot Arena
LMSys Chatbot Arena
Определение
Платформа для краудсорсингового попарного сравнения LLM с использованием Elo-рейтинга. Позволяет ранжировать модели на основе предпочтений пользователей.
Где встречается
- 171. Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации
- 331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)
- 871. Как делать pairwise ranking для сравнения моделей
- 800+ вопросов
- 277. Реализовать LLM-as-Judge с калибровкой
- 284. Настроить pairwise evaluation для моделей