Чем отличается эвалюация LLM от эвалюации традиционных ML моделей?
Краткий тезис
Эвалюация LLM кардинально отличается от эвалюации традиционных ML моделей из-за природы решаемых задач. Традиционные ML модели предсказывают структурированные значения (классы, числа), для которых существуют объективные ground truth и автоматические метрики (accuracy, F1, MSE). LLM генерируют открытые тексты, где правильный ответ может быть не единственным, а качество субъективно. Поэтому оценка LLM требует evaluator-based подхода (LLM-as-judge, human evaluation), анализа трендов через эксперименты и не имеет автоматического вычисления baseline. Вместо статистических тестов распределений (penalty|KL divergence, PSI) здесь используются метрики faithfulness, answer relevance и согласованность.
1. Термины: эвалюация, LLM, традиционные ML модели
Эвалюация (evaluation) — процесс измерения качества модели на тестовых данных. Для традиционных ML это сравнение предсказаний с эталонными метками. Для LLM — оценка сгенерированного текста по нескольким аспектам (фактологичность, релевантность, безопасность).
Традиционные ML модели — модели, решающие задачи классификации, регрессии, ранжирования и т.п. Выход — скаляр или вектор фиксированной размерности.
LLM (Large Language Models) — модели, генерирующие последовательности токенов (текст). Выход — переменной длины, недетерминированный (при температуре >0).
Ключевое различие: в ML есть чёткий ground truth (истинная метка), в LLM ground truth часто субъективен или требует человеческой разметки.
2. Принципиальные различия в объекте оценки
| Аспект | Традиционный ML | LLM |
|---|---|---|
| Тип выхода | Число / категория | Текст (последовательность токенов) |
| Наличие ground truth | Почти всегда есть (размеченный датасет) | Часто отсутствует или неоднозначен |
| Детерминированность | Детерминирован (одинаковый вход → одинаковый выход) | Недетерминирован (зависит от температуры, seed) |
| Размерность выхода | Фиксированная | Переменная |
| Ошибка | Чётко определена (неправильный класс, отклонение) | Множество аспектов: факты, стиль, токсичность |
Из-за этого метрики ML (accuracy, MSE) неприменимы к LLM напрямую.
3. Метрики для традиционных ML
Традиционные ML используют автоматические метрики, которые вычисляются по формуле без участия человека.
Для классификации
- Accuracy, Precision, Recall, F1-score
- AUC-ROC, Log Loss
- Confusion matrix
Для регрессии
Для оценки распределений (дрейф данных):
- KL divergence (Kullback–Leibler divergence) — мера различия двух распределений вероятностей.
- PSI (Population Stability Index) — частный случай KL divergence, используется для мониторинга стабильности скоринговых моделей.
Пример расчёта PSI:
PSI = Σ (p_i - q_i) * ln(p_i / q_i)
где p_i — доля наблюдений в i-м бине на текущем периоде, q_i — на эталонном.
Эти метрики автоматически вычисляются на основе предсказаний и ground truth. Baseline (например, константное предсказание) также вычисляется автоматически.
4. Метрики для LLM (оценка качества генерации)
Оценка LLM делится на три уровня:
4.1 Автоматические метрики на основе n-грамм
- BLEU (Bilingual Evaluation Understudy) — точность совпадения n-грамм с эталоном.
- ROUGE (Recall-Oriented Understudy for Gisting Evaluation) — полнота совпадения n-грамм.
- METEOR — учитывает синонимы и стемминг.
Ограничение: плохо коррелируют с человеческой оценкой для творческих задач.
4.2 Метрики на основе эмбеддингов
- BERTScore — попарное косинусное сходство эмбеддингов токенов из BERT между сгенерированным текстом и эталоном.
- BLEURT — обученная модель, предсказывающая оценку качества.
4.3 Evaluator-based (LLM-as-judge)
Используется другая LLM (например, GPT-4) для оценки ответа по заданным критериям.
Пример промпта для оценки faithfulness:
Оцени, соответствует ли ответ фактам из контекста. Ответь 1 (соответствует) или 0 (не соответствует).
Контекст: {context}
Ответ: {answer}
Фреймворки: RAGAS, DeepEval, LangSmith, OpenAI Evals.
4.4 Human evaluation
Золотой стандарт для LLM. Аннотаторы оценивают ответы по шкале (Likert) или pairwise comparison.
5. Отсутствие автоматического baseline в LLM
В ML baseline — это простая модель (например, всегда предсказывать среднее). Baseline вычисляется автоматически на тех же данных.
В LLM:
- Нет единого автоматического baseline, потому что задача генерации текста не имеет единственного «правильного» ответа.
- Baseline часто задаётся человеком (например, ответ эксперта) или другой LLM (GPT-4 как reference).
- Сравнение с baseline требует экспериментов (A/B тесты), а не формулы.
6. Оценка распределений vs оценка трендов
Традиционный ML
- Использует статистические тесты (KL divergence, PSI, KS-test) для обнаружения дрейфа данных.
- Метрики стабильны и воспроизводимы.
- Оценка качества — это трендовый анализ через серию экспериментов.
- Из-за недетерминированности и субъективности нужно проводить множество запусков и усреднять.
- Используются A/B тесты (сравнение двух версий модели) и краудсорсинг.
- Важна consistency (согласованность ответов на одинаковые запросы).
7. Роль человека в эвалюации
| Аспект | Традиционный ML | LLM |
|---|---|---|
| Необходимость human evaluation | Редко (только для валидации метрик) | Часто (золотой стандарт) |
| Стоимость human eval | Низкая (можно автоматизировать) | Высокая (требует экспертов) |
| Скорость | Высокая | Низкая |
| Объективность | Высокая (ground truth фиксирован) | Низкая (зависит от аннотатора) |
Для LLM human evaluation остаётся незаменимым, особенно для оценки креативности, юмора, безопасности.
8. Инструменты и фреймворки
Для традиционного ML
- scikit-learn (metrics, model_selection)
- scipy.stats (ks_2samp, entropy)
- statsmodels (PSI)
Для LLM
- RAGAS — метрики для RAG (faithfulness, answer relevance, context precision)
- DeepEval — модульная библиотека с LLM-as-judge
- LangSmith — платформа для отслеживания и оценки LLM-приложений
- OpenAI Evals — набор бенчмарков
- Anthropic evals — для оценки безопасности
9. Проблемы эвалюации LLM
- Субъективность — разные аннотаторы могут оценивать по-разному.
- Дороговизна human eval — требует времени и денег.
- Нестабильность LLM-судей — LLM-as-judge может иметь bias (self-enhancement, position bias, verbosity bias).
- Отсутствие единого стандарта — нет общепринятого набора метрик для всех задач.
- Чувствительность к промпту — оценка LLM-судьи сильно зависит от формулировки инструкции.
10. Пример сравнения на практике
Допустим, мы оцениваем модель, которая отвечает на вопросы по документации.
Традиционный ML подход (если бы задача была классификацией):
- Датасет: вопрос → метка (категория)
- Метрика: accuracy
- Baseline: всегда предсказывать самую частую категорию (accuracy = 0.3)
- Автоматически: accuracy = 0.85 → модель лучше baseline.
LLM подход
- Датасет: вопрос → эталонный ответ (написан человеком)
- Метрики: BERTScore, faithfulness (LLM-as-judge)
- Baseline: ответы GPT-3.5 (нужно прогнать эксперимент)
- Результат: BERTScore = 0.92, faithfulness = 0.88. Но без human eval нельзя утверждать, что модель действительно хороша.
Пет-проект для закрепления
Задача Разработать систему эвалюации для LLM-агента, который отвечает на вопросы по внутренней документации компании.
Инструменты LangChain, RAGAS, GPT-4 (как judge), Streamlit (визуализация).
Шаги:
- Собрать 50 вопросов от сотрудников и подготовить эталонные ответы (human-annotated).
- Развернуть RAG-агента (retriever + LLM).
- Получить ответы агента на все вопросы.
- Автоматически оценить faithfulness и answer relevance с помощью RAGAS (используя GPT-4 как judge).
- Провести human evaluation: 3 аннотатора оценивают ответы по шкале 1-5.
- Сравнить автоматические оценки с человеческими (рассчитать корреляцию Спирмена).
- Выявить случаи, где LLM-as-judge ошибся (например, переоценил многословные ответы).
Ожидаемый результат Вы получите практическое понимание ограничений автоматической эвалюации LLM и научитесь комбинировать LLM-as-judge с human evaluation для надёжной оценки.
Связь с другими вопросами
| Вопрос | Тема |
|---|---|
| 175 | Метрики для RAG-систем |
| 176 | Оценка faithfulness в генерации |
| 177 | LLM-as-judge: преимущества и недостатки |
| 179 | A/B тестирование LLM-агентов |
| 180 | Эвалюация мультиагентных систем |
Навигация
- Предыдущий: 177
- Следующий: 179
- Индекс: 00. Индекс разборов