MT-Bench

Определение

Многошаговый бенчмарк (Multi-turn Benchmark) для оценки качества диалоговых моделей. Состоит из серии вопросов, проверяющих умение модели поддерживать контекст и следовать инструкциям.

Где встречается

259. Как вы генерируете synthetic данные для instruction tuning
331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)
336. Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO
486. Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.
493. Что такое Positional bias в LLM-as-Judge и как его исправить
871. Как делать pairwise ranking для сравнения моделей
800+ вопросов
71. Рассчитать cost per 1M tokens для разных моделей
277. Реализовать LLM-as-Judge с калибровкой
284. Настроить pairwise evaluation для моделей

MT-Bench

MT-Bench

Определение

Где встречается

Навигация