Чем отличается эвалюация LLM от эвалюации традиционных ML моделей?

Q: 1. Термины: эвалюация, LLM, традиционные ML модели

Эвалюация ([[Вики/Evaluation\|evaluation]]) — процесс измерения качества модели на тестовых данных. Для традиционных ML это сравнение предсказаний с эталонными метками. Для [[Вики/GPT-4o\|LLM]] — [[Вики/Evaluation\|оценка]] сгенерированного текста по нескольким аспектам ([[Вики/Faithfulness\|фактологичность]], [[Вики/Answer relevance\|релевантность]], [[Вики/Safetysecurity\|безопасность]]).

Q: 2. Принципиальные различия в объекте оценки

| Аспект | Традиционный ML | LLM | |--------|----------------|-----| | Тип выхода | Число / категория | Текст (последовательность токенов) | | Наличие ground truth | Почти всегда есть (размеченный датасет) | Часто отсутствует или неоднозначен | | Детерминированность | Детерминирован (одинаковый вход → одинаковый выход) | Недетерминирован (зависит от температуры, seed) |

Q: 3. Метрики для традиционных ML

Традиционные ML используют **автоматические метрики**, которые вычисляются по формуле без участия человека. Для классификации - [[Вики/accuracy\|Accuracy]], [[Вики/accuracy\|Precision]], [[Вики/accuracy\|Recall]], [[Вики/F1\|F1-score]] - [[Вики/ROC-AUC\|AUC-ROC]], [[Вики/cross-entropy loss\|Log Loss]]

Q: 4.1 Автоматические метрики на основе n-грамм

Q: 4.2 Метрики на основе эмбеддингов

- **[[Вики/BERTscore\|BERTScore]]** — попарное [[Вики/vector similarity\|косинусное сходство]] эмбеддингов токенов из [[Вики/BERT\|BERT]] между сгенерированным текстом и эталоном. - [[Вики/BLEURT\|BLEURT]] — обученная [[Вики/model\|модель]], предсказывающая оценку качества.

Q: 4.3 Evaluator-based (LLM-as-judge)

Используется другая [[Вики/GPT-4o\|LLM]] (например, [[Вики/gpt-3.5-turbo\|GPT-4]]) для оценки ответа по заданным критериям. Пример промпта для оценки [[Вики/accuracy\|faithfulness]]: Оцени, соответствует ли ответ фактам из контекста. Ответь 1 (соответствует) или 0 (не соответствует).

Q: 5. Отсутствие автоматического baseline в LLM

В ML [[Вики/baseline\|baseline]] — это простая [[Вики/model\|модель]] (например, всегда предсказывать среднее). [[Вики/baseline\|Baseline]] вычисляется автоматически на тех же данных. В [[Вики/GPT-4o\|LLM]]: - Нет единого автоматического [[Вики/baseline\|baseline]], потому что [[Вики/Task\|задача]] генерации текста не имеет единственного «правильного» ответа.

Краткий тезис

Эвалюация LLM кардинально отличается от эвалюации традиционных ML моделей из-за природы решаемых задач. Традиционные ML модели предсказывают структурированные значения (классы, числа), для которых существуют объективные ground truth и автоматические метрики (accuracy, F1, MSE). LLM генерируют открытые тексты, где правильный ответ может быть не единственным, а качество субъективно. Поэтому оценка LLM требует evaluator-based подхода (LLM-as-judge, human evaluation), анализа трендов через эксперименты и не имеет автоматического вычисления baseline. Вместо статистических тестов распределений (penalty|KL divergence, PSI) здесь используются метрики faithfulness, answer relevance и согласованность.

1. Термины: эвалюация, LLM, традиционные ML модели

Эвалюация (evaluation) — процесс измерения качества модели на тестовых данных. Для традиционных ML это сравнение предсказаний с эталонными метками. Для LLM — оценка сгенерированного текста по нескольким аспектам (фактологичность, релевантность, безопасность).

Традиционные ML модели — модели, решающие задачи классификации, регрессии, ранжирования и т.п. Выход — скаляр или вектор фиксированной размерности.

LLM (Large Language Models) — модели, генерирующие последовательности токенов (текст). Выход — переменной длины, недетерминированный (при температуре >0).

Ключевое различие: в ML есть чёткий ground truth (истинная метка), в LLM ground truth часто субъективен или требует человеческой разметки.

2. Принципиальные различия в объекте оценки

Аспект	Традиционный ML	LLM
Тип выхода	Число / категория	Текст (последовательность токенов)
Наличие ground truth	Почти всегда есть (размеченный датасет)	Часто отсутствует или неоднозначен
Детерминированность	Детерминирован (одинаковый вход → одинаковый выход)	Недетерминирован (зависит от температуры, seed)
Размерность выхода	Фиксированная	Переменная
Ошибка	Чётко определена (неправильный класс, отклонение)	Множество аспектов: факты, стиль, токсичность

Из-за этого метрики ML (accuracy, MSE) неприменимы к LLM напрямую.

3. Метрики для традиционных ML

Традиционные ML используют автоматические метрики, которые вычисляются по формуле без участия человека.

Для классификации

Для регрессии

MSE, MAE, RMSE, R²

Для оценки распределений (дрейф данных):

KL divergence (Kullback–Leibler divergence) — мера различия двух распределений вероятностей.
PSI (Population Stability Index) — частный случай KL divergence, используется для мониторинга стабильности скоринговых моделей.

Пример расчёта PSI:

PSI = Σ (p_i - q_i) * ln(p_i / q_i)

где p_i — доля наблюдений в i-м бине на текущем периоде, q_i — на эталонном.

Эти метрики автоматически вычисляются на основе предсказаний и ground truth. Baseline (например, константное предсказание) также вычисляется автоматически.

4. Метрики для LLM (оценка качества генерации)

Оценка LLM делится на три уровня:

4.1 Автоматические метрики на основе n-грамм

BLEU (Bilingual Evaluation Understudy) — точность совпадения n-грамм с эталоном.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) — полнота совпадения n-грамм.
METEOR — учитывает синонимы и стемминг.

Ограничение: плохо коррелируют с человеческой оценкой для творческих задач.

4.2 Метрики на основе эмбеддингов

BERTScore — попарное косинусное сходство эмбеддингов токенов из BERT между сгенерированным текстом и эталоном.
BLEURT — обученная модель, предсказывающая оценку качества.

4.3 Evaluator-based (LLM-as-judge)

Используется другая LLM (например, GPT-4) для оценки ответа по заданным критериям.

Пример промпта для оценки faithfulness:

Оцени, соответствует ли ответ фактам из контекста. Ответь 1 (соответствует) или 0 (не соответствует).
Контекст: {context}
Ответ: {answer}

Фреймворки: RAGAS, DeepEval, LangSmith, OpenAI Evals.

4.4 Human evaluation

Золотой стандарт для LLM. Аннотаторы оценивают ответы по шкале (Likert) или pairwise comparison.

5. Отсутствие автоматического baseline в LLM

В ML baseline — это простая модель (например, всегда предсказывать среднее). Baseline вычисляется автоматически на тех же данных.

В LLM:

Нет единого автоматического baseline, потому что задача генерации текста не имеет единственного «правильного» ответа.
Baseline часто задаётся человеком (например, ответ эксперта) или другой LLM (GPT-4 как reference).
Сравнение с baseline требует экспериментов (A/B тесты), а не формулы.

6. Оценка распределений vs оценка трендов

Традиционный ML

Использует статистические тесты (KL divergence, PSI, KS-test) для обнаружения дрейфа данных.
Метрики стабильны и воспроизводимы.

LLM

Оценка качества — это трендовый анализ через серию экспериментов.
Из-за недетерминированности и субъективности нужно проводить множество запусков и усреднять.
Используются A/B тесты (сравнение двух версий модели) и краудсорсинг.
Важна consistency (согласованность ответов на одинаковые запросы).

7. Роль человека в эвалюации

Аспект	Традиционный ML	LLM
Необходимость human evaluation	Редко (только для валидации метрик)	Часто (золотой стандарт)
Стоимость human eval	Низкая (можно автоматизировать)	Высокая (требует экспертов)
Скорость	Высокая	Низкая
Объективность	Высокая (ground truth фиксирован)	Низкая (зависит от аннотатора)

Для LLM human evaluation остаётся незаменимым, особенно для оценки креативности, юмора, безопасности.

8. Инструменты и фреймворки

Для традиционного ML

scikit-learn (metrics, model_selection)
scipy.stats (ks_2samp, entropy)
statsmodels (PSI)

Для LLM

RAGAS — метрики для RAG (faithfulness, answer relevance, context precision)
DeepEval — модульная библиотека с LLM-as-judge
LangSmith — платформа для отслеживания и оценки LLM-приложений
OpenAI Evals — набор бенчмарков
Anthropic evals — для оценки безопасности

9. Проблемы эвалюации LLM

Субъективность — разные аннотаторы могут оценивать по-разному.
Дороговизна human eval — требует времени и денег.
Нестабильность LLM-судей — LLM-as-judge может иметь bias (self-enhancement, position bias, verbosity bias).
Отсутствие единого стандарта — нет общепринятого набора метрик для всех задач.
Чувствительность к промпту — оценка LLM-судьи сильно зависит от формулировки инструкции.

10. Пример сравнения на практике

Допустим, мы оцениваем модель, которая отвечает на вопросы по документации.

Традиционный ML подход (если бы задача была классификацией):

Датасет: вопрос → метка (категория)
Метрика: accuracy
Baseline: всегда предсказывать самую частую категорию (accuracy = 0.3)
Автоматически: accuracy = 0.85 → модель лучше baseline.

LLM подход

Датасет: вопрос → эталонный ответ (написан человеком)
Метрики: BERTScore, faithfulness (LLM-as-judge)
Baseline: ответы GPT-3.5 (нужно прогнать эксперимент)
Результат: BERTScore = 0.92, faithfulness = 0.88. Но без human eval нельзя утверждать, что модель действительно хороша.

Пет-проект для закрепления

Задача Разработать систему эвалюации для LLM-агента, который отвечает на вопросы по внутренней документации компании.

Инструменты LangChain, RAGAS, GPT-4 (как judge), Streamlit (визуализация).

Шаги:

Собрать 50 вопросов от сотрудников и подготовить эталонные ответы (human-annotated).
Развернуть RAG-агента (retriever + LLM).
Получить ответы агента на все вопросы.
Автоматически оценить faithfulness и answer relevance с помощью RAGAS (используя GPT-4 как judge).
Провести human evaluation: 3 аннотатора оценивают ответы по шкале 1-5.
Сравнить автоматические оценки с человеческими (рассчитать корреляцию Спирмена).
Выявить случаи, где LLM-as-judge ошибся (например, переоценил многословные ответы).

Ожидаемый результат Вы получите практическое понимание ограничений автоматической эвалюации LLM и научитесь комбинировать LLM-as-judge с human evaluation для надёжной оценки.

Связь с другими вопросами

Вопрос	Тема
175	Метрики для RAG-систем
176	Оценка faithfulness в генерации
177	LLM-as-judge: преимущества и недостатки
179	A/B тестирование LLM-агентов
180	Эвалюация мультиагентных систем

Краткий тезис

1. Термины: эвалюация, LLM, традиционные ML модели

2. Принципиальные различия в объекте оценки

Аспект	Традиционный ML	LLM
Тип выхода	Число / категория	Текст (последовательность токенов)
Наличие ground truth	Почти всегда есть (размеченный датасет)	Часто отсутствует или неоднозначен
Детерминированность	Детерминирован (одинаковый вход → одинаковый выход)	Недетерминирован (зависит от температуры, seed)
Размерность выхода	Фиксированная	Переменная
Ошибка	Чётко определена (неправильный класс, отклонение)	Множество аспектов: факты, стиль, токсичность

Из-за этого метрики ML (accuracy, MSE) неприменимы к LLM напрямую.

3. Метрики для традиционных ML

Традиционные ML используют автоматические метрики, которые вычисляются по формуле без участия человека.

Для классификации

Для регрессии

MSE, MAE, RMSE, R²

Для оценки распределений (дрейф данных):

KL divergence (Kullback–Leibler divergence) — мера различия двух распределений вероятностей.
PSI (Population Stability Index) — частный случай KL divergence, используется для мониторинга стабильности скоринговых моделей.

Пример расчёта PSI:

PSI = Σ (p_i - q_i) * ln(p_i / q_i)

где p_i — доля наблюдений в i-м бине на текущем периоде, q_i — на эталонном.

4. Метрики для LLM (оценка качества генерации)

Оценка LLM делится на три уровня:

4.1 Автоматические метрики на основе n-грамм

BLEU (Bilingual Evaluation Understudy) — точность совпадения n-грамм с эталоном.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) — полнота совпадения n-грамм.
METEOR — учитывает синонимы и стемминг.

Ограничение: плохо коррелируют с человеческой оценкой для творческих задач.

4.2 Метрики на основе эмбеддингов

BERTScore — попарное косинусное сходство эмбеддингов токенов из BERT между сгенерированным текстом и эталоном.
BLEURT — обученная модель, предсказывающая оценку качества.

4.3 Evaluator-based (LLM-as-judge)

Используется другая LLM (например, GPT-4) для оценки ответа по заданным критериям.

Пример промпта для оценки faithfulness:

Оцени, соответствует ли ответ фактам из контекста. Ответь 1 (соответствует) или 0 (не соответствует).
Контекст: {context}
Ответ: {answer}

Фреймворки: RAGAS, DeepEval, LangSmith, OpenAI Evals.

4.4 Human evaluation

Золотой стандарт для LLM. Аннотаторы оценивают ответы по шкале (Likert) или pairwise comparison.

5. Отсутствие автоматического baseline в LLM

В LLM:

Нет единого автоматического baseline, потому что задача генерации текста не имеет единственного «правильного» ответа.
Baseline часто задаётся человеком (например, ответ эксперта) или другой LLM (GPT-4 как reference).
Сравнение с baseline требует экспериментов (A/B тесты), а не формулы.

6. Оценка распределений vs оценка трендов

Традиционный ML

Использует статистические тесты (KL divergence, PSI, KS-test) для обнаружения дрейфа данных.
Метрики стабильны и воспроизводимы.

LLM

Оценка качества — это трендовый анализ через серию экспериментов.
Из-за недетерминированности и субъективности нужно проводить множество запусков и усреднять.
Используются A/B тесты (сравнение двух версий модели) и краудсорсинг.
Важна consistency (согласованность ответов на одинаковые запросы).

7. Роль человека в эвалюации

Аспект	Традиционный ML	LLM
Необходимость human evaluation	Редко (только для валидации метрик)	Часто (золотой стандарт)
Стоимость human eval	Низкая (можно автоматизировать)	Высокая (требует экспертов)
Скорость	Высокая	Низкая
Объективность	Высокая (ground truth фиксирован)	Низкая (зависит от аннотатора)

Для LLM human evaluation остаётся незаменимым, особенно для оценки креативности, юмора, безопасности.

8. Инструменты и фреймворки

Для традиционного ML

scikit-learn (metrics, model_selection)
scipy.stats (ks_2samp, entropy)
statsmodels (PSI)

Для LLM

RAGAS — метрики для RAG (faithfulness, answer relevance, context precision)
DeepEval — модульная библиотека с LLM-as-judge
LangSmith — платформа для отслеживания и оценки LLM-приложений
OpenAI Evals — набор бенчмарков
Anthropic evals — для оценки безопасности

9. Проблемы эвалюации LLM

Субъективность — разные аннотаторы могут оценивать по-разному.
Дороговизна human eval — требует времени и денег.
Нестабильность LLM-судей — LLM-as-judge может иметь bias (self-enhancement, position bias, verbosity bias).
Отсутствие единого стандарта — нет общепринятого набора метрик для всех задач.
Чувствительность к промпту — оценка LLM-судьи сильно зависит от формулировки инструкции.

10. Пример сравнения на практике

Допустим, мы оцениваем модель, которая отвечает на вопросы по документации.

Традиционный ML подход (если бы задача была классификацией):

Датасет: вопрос → метка (категория)
Метрика: accuracy
Baseline: всегда предсказывать самую частую категорию (accuracy = 0.3)
Автоматически: accuracy = 0.85 → модель лучше baseline.

LLM подход

Датасет: вопрос → эталонный ответ (написан человеком)
Метрики: BERTScore, faithfulness (LLM-as-judge)
Baseline: ответы GPT-3.5 (нужно прогнать эксперимент)
Результат: BERTScore = 0.92, faithfulness = 0.88. Но без human eval нельзя утверждать, что модель действительно хороша.

Пет-проект для закрепления

Инструменты LangChain, RAGAS, GPT-4 (как judge), Streamlit (визуализация).

Шаги:

Собрать 50 вопросов от сотрудников и подготовить эталонные ответы (human-annotated).
Развернуть RAG-агента (retriever + LLM).
Получить ответы агента на все вопросы.
Автоматически оценить faithfulness и answer relevance с помощью RAGAS (используя GPT-4 как judge).
Провести human evaluation: 3 аннотатора оценивают ответы по шкале 1-5.
Сравнить автоматические оценки с человеческими (рассчитать корреляцию Спирмена).
Выявить случаи, где LLM-as-judge ошибся (например, переоценил многословные ответы).

Связь с другими вопросами

Вопрос	Тема
175	Метрики для RAG-систем
176	Оценка faithfulness в генерации
177	LLM-as-judge: преимущества и недостатки
179	A/B тестирование LLM-агентов
180	Эвалюация мультиагентных систем

Чем отличается эвалюация LLM от эвалюации традиционных ML моделей?

Краткий тезис

1. Термины: эвалюация, LLM, традиционные ML модели

2. Принципиальные различия в объекте оценки

3. Метрики для традиционных ML

4. Метрики для LLM (оценка качества генерации)

4.1 Автоматические метрики на основе n-грамм

4.2 Метрики на основе эмбеддингов

4.3 Evaluator-based (LLM-as-judge)

4.4 Human evaluation

5. Отсутствие автоматического baseline в LLM

6. Оценка распределений vs оценка трендов

7. Роль человека в эвалюации

8. Инструменты и фреймворки

9. Проблемы эвалюации LLM

10. Пример сравнения на практике

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Чем отличается эвалюация LLM от эвалюации традиционных ML моделей?

Краткий тезис

1. Термины: эвалюация, LLM, традиционные ML модели

2. Принципиальные различия в объекте оценки

3. Метрики для традиционных ML

4. Метрики для LLM (оценка качества генерации)

4.1 Автоматические метрики на основе n-грамм

4.2 Метрики на основе эмбеддингов

4.3 Evaluator-based (LLM-as-judge)

4.4 Human evaluation

5. Отсутствие автоматического baseline в LLM

6. Оценка распределений vs оценка трендов

7. Роль человека в эвалюации

8. Инструменты и фреймворки

9. Проблемы эвалюации LLM

10. Пример сравнения на практике

Пет-проект для закрепления

Связь с другими вопросами

Навигация