中文翻译暂不可用,显示俄语原文。
MT-Bench
MT-Bench
Определение
Многошаговый бенчмарк (Multi-turn Benchmark) для оценки качества диалоговых моделей. Состоит из серии вопросов, проверяющих умение модели поддерживать контекст и следовать инструкциям.
Где встречается
- 259. Как вы генерируете synthetic данные для instruction tuning
- 331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)
- 336. Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO
- 486. Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.
- 493. Что такое Positional bias в LLM-as-Judge и как его исправить
- 871. Как делать pairwise ranking для сравнения моделей
- 800+ вопросов
- 71. Рассчитать cost per 1M tokens для разных моделей
- 277. Реализовать LLM-as-Judge с калибровкой
- 284. Настроить pairwise evaluation для моделей