Чем отличается эвалюация LLM от эвалюации традиционных ML моделей?

Краткий тезис

Эвалюация LLM кардинально отличается от эвалюации традиционных ML моделей из-за природы решаемых задач. Традиционные ML модели предсказывают структурированные значения (классы, числа), для которых существуют объективные ground truth и автоматические метрики (accuracy, F1, MSE). LLM генерируют открытые тексты, где правильный ответ может быть не единственным, а качество субъективно. Поэтому оценка LLM требует evaluator-based подхода (LLM-as-judge, human evaluation), анализа трендов через эксперименты и не имеет автоматического вычисления baseline. Вместо статистических тестов распределений (penalty|KL divergence, PSI) здесь используются метрики faithfulness, answer relevance и согласованность.

1. Термины: эвалюация, LLM, традиционные ML модели

Эвалюация (evaluation) — процесс измерения качества модели на тестовых данных. Для традиционных ML это сравнение предсказаний с эталонными метками. Для LLM — оценка сгенерированного текста по нескольким аспектам (фактологичность, релевантность, безопасность).

Традиционные ML модели — модели, решающие задачи классификации, регрессии, ранжирования и т.п. Выход — скаляр или вектор фиксированной размерности.

LLM (Large Language Models) — модели, генерирующие последовательности токенов (текст). Выход — переменной длины, недетерминированный (при температуре >0).

Ключевое различие: в ML есть чёткий ground truth (истинная метка), в LLM ground truth часто субъективен или требует человеческой разметки.

2. Принципиальные различия в объекте оценки

АспектТрадиционный MLLLM
Тип выходаЧисло / категорияТекст (последовательность токенов)
Наличие ground truthПочти всегда есть (размеченный датасет)Часто отсутствует или неоднозначен
ДетерминированностьДетерминирован (одинаковый вход → одинаковый выход)Недетерминирован (зависит от температуры, seed)
Размерность выходаФиксированнаяПеременная
ОшибкаЧётко определена (неправильный класс, отклонение)Множество аспектов: факты, стиль, токсичность

Из-за этого метрики ML (accuracy, MSE) неприменимы к LLM напрямую.

3. Метрики для традиционных ML

Традиционные ML используют автоматические метрики, которые вычисляются по формуле без участия человека.

Для классификации

Для регрессии

Для оценки распределений (дрейф данных):

  • KL divergence (Kullback–Leibler divergence) — мера различия двух распределений вероятностей.
  • PSI (Population Stability Index) — частный случай KL divergence, используется для мониторинга стабильности скоринговых моделей.

Пример расчёта PSI:

PSI = Σ (p_i - q_i) * ln(p_i / q_i)

где p_i — доля наблюдений в i-м бине на текущем периоде, q_i — на эталонном.

Эти метрики автоматически вычисляются на основе предсказаний и ground truth. Baseline (например, константное предсказание) также вычисляется автоматически.

4. Метрики для LLM (оценка качества генерации)

Оценка LLM делится на три уровня:

4.1 Автоматические метрики на основе n-грамм

  • BLEU (Bilingual Evaluation Understudy) — точность совпадения n-грамм с эталоном.
  • ROUGE (Recall-Oriented Understudy for Gisting Evaluation) — полнота совпадения n-грамм.
  • METEOR — учитывает синонимы и стемминг.

Ограничение: плохо коррелируют с человеческой оценкой для творческих задач.

4.2 Метрики на основе эмбеддингов

  • BERTScore — попарное косинусное сходство эмбеддингов токенов из BERT между сгенерированным текстом и эталоном.
  • BLEURT — обученная модель, предсказывающая оценку качества.

4.3 Evaluator-based (LLM-as-judge)

Используется другая LLM (например, GPT-4) для оценки ответа по заданным критериям.

Пример промпта для оценки faithfulness:

Оцени, соответствует ли ответ фактам из контекста. Ответь 1 (соответствует) или 0 (не соответствует).
Контекст: {context}
Ответ: {answer}

Фреймворки: RAGAS, DeepEval, LangSmith, OpenAI Evals.

4.4 Human evaluation

Золотой стандарт для LLM. Аннотаторы оценивают ответы по шкале (Likert) или pairwise comparison.

5. Отсутствие автоматического baseline в LLM

В ML baseline — это простая модель (например, всегда предсказывать среднее). Baseline вычисляется автоматически на тех же данных.

В LLM:

  • Нет единого автоматического baseline, потому что задача генерации текста не имеет единственного «правильного» ответа.
  • Baseline часто задаётся человеком (например, ответ эксперта) или другой LLM (GPT-4 как reference).
  • Сравнение с baseline требует экспериментов (A/B тесты), а не формулы.

6. Оценка распределений vs оценка трендов

Традиционный ML

  • Использует статистические тесты (KL divergence, PSI, KS-test) для обнаружения дрейфа данных.
  • Метрики стабильны и воспроизводимы.

LLM

  • Оценка качества — это трендовый анализ через серию экспериментов.
  • Из-за недетерминированности и субъективности нужно проводить множество запусков и усреднять.
  • Используются A/B тесты (сравнение двух версий модели) и краудсорсинг.
  • Важна consistency (согласованность ответов на одинаковые запросы).

7. Роль человека в эвалюации

АспектТрадиционный MLLLM
Необходимость human evaluationРедко (только для валидации метрик)Часто (золотой стандарт)
Стоимость human evalНизкая (можно автоматизировать)Высокая (требует экспертов)
СкоростьВысокаяНизкая
ОбъективностьВысокая (ground truth фиксирован)Низкая (зависит от аннотатора)

Для LLM human evaluation остаётся незаменимым, особенно для оценки креативности, юмора, безопасности.

8. Инструменты и фреймворки

Для традиционного ML

Для LLM

9. Проблемы эвалюации LLM

  1. Субъективность — разные аннотаторы могут оценивать по-разному.
  2. Дороговизна human eval — требует времени и денег.
  3. Нестабильность LLM-судей — LLM-as-judge может иметь bias (self-enhancement, position bias, verbosity bias).
  4. Отсутствие единого стандарта — нет общепринятого набора метрик для всех задач.
  5. Чувствительность к промпту — оценка LLM-судьи сильно зависит от формулировки инструкции.

10. Пример сравнения на практике

Допустим, мы оцениваем модель, которая отвечает на вопросы по документации.

Традиционный ML подход (если бы задача была классификацией):

  • Датасет: вопрос → метка (категория)
  • Метрика: accuracy
  • Baseline: всегда предсказывать самую частую категорию (accuracy = 0.3)
  • Автоматически: accuracy = 0.85 → модель лучше baseline.

LLM подход

  • Датасет: вопрос → эталонный ответ (написан человеком)
  • Метрики: BERTScore, faithfulness (LLM-as-judge)
  • Baseline: ответы GPT-3.5 (нужно прогнать эксперимент)
  • Результат: BERTScore = 0.92, faithfulness = 0.88. Но без human eval нельзя утверждать, что модель действительно хороша.

Пет-проект для закрепления

Задача Разработать систему эвалюации для LLM-агента, который отвечает на вопросы по внутренней документации компании.

Инструменты LangChain, RAGAS, GPT-4 (как judge), Streamlit (визуализация).

Шаги:

  1. Собрать 50 вопросов от сотрудников и подготовить эталонные ответы (human-annotated).
  2. Развернуть RAG-агента (retriever + LLM).
  3. Получить ответы агента на все вопросы.
  4. Автоматически оценить faithfulness и answer relevance с помощью RAGAS (используя GPT-4 как judge).
  5. Провести human evaluation: 3 аннотатора оценивают ответы по шкале 1-5.
  6. Сравнить автоматические оценки с человеческими (рассчитать корреляцию Спирмена).
  7. Выявить случаи, где LLM-as-judge ошибся (например, переоценил многословные ответы).

Ожидаемый результат Вы получите практическое понимание ограничений автоматической эвалюации LLM и научитесь комбинировать LLM-as-judge с human evaluation для надёжной оценки.

Связь с другими вопросами

ВопросТема
175Метрики для RAG-систем
176Оценка faithfulness в генерации
177LLM-as-judge: преимущества и недостатки
179A/B тестирование LLM-агентов
180Эвалюация мультиагентных систем

Навигация