Как работает Для каждого токена в ответе находится наиболее похожий [[Вики/token\|токен]] в эталоне (по косинусному сходству эмбеддингов). Затем вычисляются [[Вики/accuracy\|precision]], [[Вики/accuracy\|recall]] и F1. Например, если ответ «кошка сидит на ковре», а [[Вики/baseline\|эталон]] «кот лежит на коврике», [[Вики/BERTscore\|BERTscore]] покажет [[Вики/high similarity\|высокое сходство]], хотя слова разные.

Альтернативы LLM-as-Judge — назовите 3 и их ограничения?

Q: 1. Введение: зачем нужны альтернативы LLM-as-Judge

**[[Вики/LLM-as-a-judge\|LLM-as-Judge]]** — подход, при котором [[Вики/LLM\|большая языковая модель]] (например, [[Вики/LLM\|GPT-4]]) оценивает качество ответов другой [[Вики/LLM\|LLM]]. Это даёт [[Вики/гибкость\|гибкость]] и семантическое понимание, но имеет недостатки: - Высокая [[Вики/Inference cost\|стоимость]] — каждый [[Вики/промпт агента\|запрос]] к [[Вики/LLM\|LLM]] стоит денег и времени.

Q: 2. RAGAS (Retrieval Augmented Generation Assessment)

- **[[Вики/No hallucination\|Faithfulness]] ([[Вики/Faithfulness\|фактологичность]])** — проверяет, не противоречат ли [[Вики/Claims\|утверждения]] в ответе предоставленному контексту. Вычисляется через [[Вики/chunking\|разбиение]] ответа на [[Вики/Claims\|утверждения]] и проверку каждого на поддержку контекстом (с помощью NLI-модели или эмбеддингов).

Q: 3. DeBERTa-v3 (специализированная модель для оценки)

Как используется [[Вики/model\|Модель]] обучается на парах (контекст, ответ) с меткой «поддерживает» / «противоречит» / «нейтрально». После дообучения она может классифицировать каждый факт в ответе. Пример: `[[Вики/cross-encodernli-deberta-v3-large\|cross-encoder/nli-deberta-v3-large]]` — популярная [[Вики/NLI\|NLI-модель]].

Q: 5. Сравнительная таблица альтернатив

| Альтернатива | Принцип работы | Преимущества | Основные ограничения | |--------------|----------------|--------------|----------------------| | [[Вики/RAGAS\|RAGAS]] | Эмбеддинги + NLI-модель | Не требует LLM, оценивает несколько аспектов RAG | Не оценивает генерацию без контекста, зависит от эмбеддингов |

Q: 6. Когда какую альтернативу использовать

- [[Вики/RAGAS\|RAGAS]] — для оценки RAG-систем, когда есть контекст и нужно быстро проверить [[Вики/Faithfulness\|фактологичность]] и [[Вики/Answer relevance\|релевантность]]. Хорошо подходит для [[Вики/CICD\|CI/CD]] пайплайнов. - [[Вики/DeBERTa-v3\|DeBERTa-v3]] — когда нужна высокая [[Вики/accuracy\|точность]] в конкретном аспекте (например, [[Вики/Faithfulness\|фактологичность]] для юридических документов) и есть размеченные данные для дообучения.

Q: 8. Пет-проект для закрепления

Инструменты Python, `ragas`, `transformers`, `bert-score`, `sentence-transformers`, `pandas`, `matplotlib`. **Шаги:** 1. Собрать датасет: 100 вопросов, для каждого — контекст (выдержка из документации), эталонный ответ и ответ, сгенерированный LLM (например, GPT-3.5). 2. Для каждого ответа вычислить:

Краткий тезис

LLM-as-Judge — мощный, но дорогой и не всегда объективный метод оценки ответов LLM. Существуют альтернативы, которые либо вообще не используют LLM, либо используют маленькие специализированные модели. Три ключевые альтернативы: RAGAS (набор метрик на основе эмбеддингов), DeBERTa-v3 (компактная модель для оценки фактологичности) и BERTscore (метрика на основе попарного сходства эмбеддингов). У каждой есть свои ограничения: RAGAS не оценивает генерацию в отрыве от контекста, DeBERTa-v3 требует дообучения под конкретную задачу, а BERTscore не улавливает глубокую семантику.

1. Введение: зачем нужны альтернативы LLM-as-Judge

LLM-as-Judge — подход, при котором большая языковая модель (например, GPT-4) оценивает качество ответов другой LLM. Это даёт гибкость и семантическое понимание, но имеет недостатки:

Высокая стоимость — каждый запрос к LLM стоит денег и времени.
Смещение (bias) — LLM может отдавать предпочтение собственным ответам или определённым стилям.
Нестабильность — результаты могут меняться от запуска к запуску.
Закрытость — при использовании проприетарных моделей нельзя полностью контролировать процесс.

Альтернативы решают эти проблемы, но вводят свои компромиссы. Рассмотрим три наиболее популярные.

2. RAGAS (Retrieval Augmented Generation Assessment)

RAGAS — это фреймворк для оценки RAG-систем, который использует набор метрик, вычисляемых без вызова LLM-судьи. Основные метрики:

Faithfulness (фактологичность) — проверяет, не противоречат ли утверждения в ответе предоставленному контексту. Вычисляется через разбиение ответа на утверждения и проверку каждого на поддержку контекстом (с помощью NLI-модели или эмбеддингов).
Answer Relevance (релевантность ответа) — оценивает, насколько ответ соответствует вопросу. Считается как косинусное сходство между эмбеддингом ответа и эмбеддингами синтезированных вопросов.
Context Precision (точность контекста) — доля релевантных чанков в контексте.
Context Recall (полнота контекста) — доля релевантных чанков, которые были извлечены.

Как работает без LLM-судьи RAGAS использует предобученные эмбеддинги (например, от sentence-transformers) и простые алгоритмы (разбиение на предложения, вычисление сходства). Для faithfulness часто применяется небольшая NLI-модель (например, cross-encoder/nli-deberta-v3-small).

Ограничения

Не оценивает качество генерации в отрыве от контекста — если контекст плохой, метрики могут быть высокими, но ответ всё равно плох.
Зависимость от качества эмбеддингов — плохие эмбеддинги дают неточные метрики.
Не учитывает стиль, тон, креативность — только фактологичность и релевантность.
Требует наличия контекста — не подходит для оценки ответов без retrieval (например, в чат-ботах общего назначения).

3. DeBERTa-v3 (специализированная модель для оценки)

DeBERTa-v3 — это компактная языковая модель (около 300 млн параметров), которую можно дообучить для конкретной задачи оценки, например, для определения фактологичности (faithfulness) или релевантности. В отличие от LLM-as-Judge, она работает быстро и дёшево.

Как используется Модель обучается на парах (контекст, ответ) с меткой «поддерживает» / «противоречит» / «нейтрально». После дообучения она может классифицировать каждый факт в ответе. Пример: cross-encoder/nli-deberta-v3-large — популярная NLI-модель.

Ограничения

Требует дообучения под конкретную задачу — универсальность ниже, чем у LLM. Нужен размеченный датасет.
Доменная зависимость — модель, обученная на новостях, плохо работает на медицинских текстах.
Не оценивает общее качество — только один аспект (например, фактологичность). Для полноценной оценки нужно несколько моделей.
Ограниченная длина контекста — обычно до 512 токенов, длинные документы приходится резать.

4. BERTscore

BERTscore — это метрика, которая вычисляет сходство между ответом и эталонным ответом (reference) на уровне токенов, используя эмбеддинги BERT. Она считается альтернативой ROUGE и BLEU, так как учитывает синонимы и перефразирования.

Как работает Для каждого токена в ответе находится наиболее похожий токен в эталоне (по косинусному сходству эмбеддингов). Затем вычисляются precision, recall и F1. Например, если ответ «кошка сидит на ковре», а эталон «кот лежит на коврике», BERTscore покажет высокое сходство, хотя слова разные.

Ограничения

Не понимает семантику на уровне предложений — может дать высокую оценку за случайное совпадение слов, даже если смысл разный.
Чувствителен к длине — длинные ответы получают более низкие оценки из-за усреднения.
Требует эталонного ответа — не подходит для задач, где нет единственно правильного ответа (например, генерация кода или креативное письмо).
Не оценивает фактологичность — только лексическое сходство.

5. Сравнительная таблица альтернатив

Альтернатива	Принцип работы	Преимущества	Основные ограничения
RAGAS	Эмбеддинги + NLI-модель	Не требует LLM, оценивает несколько аспектов RAG	Не оценивает генерацию без контекста, зависит от эмбеддингов
DeBERTa-v3	Классификация на основе NLI	Быстрая, точная для конкретной задачи	Требует дообучения, доменная зависимость, только один аспект
BERTscore	Попарное сходство эмбеддингов токенов	Учитывает синонимы, не требует LLM	Не улавливает семантику, нужен эталон, не оценивает факты

6. Когда какую альтернативу использовать

RAGAS — для оценки RAG-систем, когда есть контекст и нужно быстро проверить фактологичность и релевантность. Хорошо подходит для CI/CD пайплайнов.
DeBERTa-v3 — когда нужна высокая точность в конкретном аспекте (например, фактологичность для юридических документов) и есть размеченные данные для дообучения.
BERTscore — для задач, где есть эталонные ответы и важно лексическое разнообразие (например, суммаризация, машинный перевод). Не подходит для open-ended генерации.

7. Дополнительные альтернативы (кратко)

Хотя вопрос про три, стоит упомянуть ещё несколько для полноты:

ROUGE / BLEU — классические n-gram метрики. Ограничения: не учитывают семантику, штрафуют за перефразирования.
COMET — нейросетевая метрика для машинного перевода, требует эталон. Ограничения: обучена только на переводческих данных.
SelfCheckGPT — метод для оценки фактологичности без эталона, используя вероятности токенов. Ограничения: работает только для моделей типа GPT, требует доступа к logits.

8. Пет-проект для закрепления

Задача Создать пайплайн для сравнения трёх альтернатив (RAGAS, DeBERTa-v3, BERTscore) на датасете из 100 вопросов к документации Python.

Инструменты Python, ragas, transformers, bert-score, sentence-transformers, pandas, matplotlib.

Шаги:

Собрать датасет: 100 вопросов, для каждого — контекст (выдержка из документации), эталонный ответ и ответ, сгенерированный LLM (например, GPT-3.5).
Для каждого ответа вычислить:
- RAGAS: faithfulness и answer relevance (используя ragas).
- DeBERTa-v3: загрузить cross-encoder/nli-deberta-v3-large и оценить faithfulness (доля утверждений, поддерживаемых контекстом).
- BERTscore: сравнить ответ с эталоном (используя bert-score).
Построить корреляционную матрицу между метриками и визуализировать распределения.
Выявить случаи, где метрики расходятся, и проанализировать причины.

Ожидаемый результат Поймёте, в каких сценариях каждая метрика даёт сбой, и научитесь выбирать подходящую альтернативу для разных задач.

9. Связь с другими вопросами

Вопрос	Тема
5	Оценка качества retrieval в RAG
130	LLM-as-Judge: преимущества и недостатки
131	Метрики для оценки RAG (faithfulness, answer relevance)
132	Как избежать bias при LLM-as-Judge
134	Оценка качества генерации без эталонов
140	Fine-tuning моделей для специфических задач оценки

10. Навигация

Предыдущий: 132
Следующий: 134
Индекс: 00. Индекс разборов

Краткий тезис

1. Введение: зачем нужны альтернативы LLM-as-Judge

Высокая стоимость — каждый запрос к LLM стоит денег и времени.
Смещение (bias) — LLM может отдавать предпочтение собственным ответам или определённым стилям.
Нестабильность — результаты могут меняться от запуска к запуску.
Закрытость — при использовании проприетарных моделей нельзя полностью контролировать процесс.

Альтернативы решают эти проблемы, но вводят свои компромиссы. Рассмотрим три наиболее популярные.

2. RAGAS (Retrieval Augmented Generation Assessment)

Faithfulness (фактологичность) — проверяет, не противоречат ли утверждения в ответе предоставленному контексту. Вычисляется через разбиение ответа на утверждения и проверку каждого на поддержку контекстом (с помощью NLI-модели или эмбеддингов).
Answer Relevance (релевантность ответа) — оценивает, насколько ответ соответствует вопросу. Считается как косинусное сходство между эмбеддингом ответа и эмбеддингами синтезированных вопросов.
Context Precision (точность контекста) — доля релевантных чанков в контексте.
Context Recall (полнота контекста) — доля релевантных чанков, которые были извлечены.

Ограничения

Не оценивает качество генерации в отрыве от контекста — если контекст плохой, метрики могут быть высокими, но ответ всё равно плох.
Зависимость от качества эмбеддингов — плохие эмбеддинги дают неточные метрики.
Не учитывает стиль, тон, креативность — только фактологичность и релевантность.
Требует наличия контекста — не подходит для оценки ответов без retrieval (например, в чат-ботах общего назначения).

3. DeBERTa-v3 (специализированная модель для оценки)

Ограничения

Требует дообучения под конкретную задачу — универсальность ниже, чем у LLM. Нужен размеченный датасет.
Доменная зависимость — модель, обученная на новостях, плохо работает на медицинских текстах.
Не оценивает общее качество — только один аспект (например, фактологичность). Для полноценной оценки нужно несколько моделей.
Ограниченная длина контекста — обычно до 512 токенов, длинные документы приходится резать.

4. BERTscore

Ограничения

Не понимает семантику на уровне предложений — может дать высокую оценку за случайное совпадение слов, даже если смысл разный.
Чувствителен к длине — длинные ответы получают более низкие оценки из-за усреднения.
Требует эталонного ответа — не подходит для задач, где нет единственно правильного ответа (например, генерация кода или креативное письмо).
Не оценивает фактологичность — только лексическое сходство.

5. Сравнительная таблица альтернатив

Альтернатива	Принцип работы	Преимущества	Основные ограничения
RAGAS	Эмбеддинги + NLI-модель	Не требует LLM, оценивает несколько аспектов RAG	Не оценивает генерацию без контекста, зависит от эмбеддингов
DeBERTa-v3	Классификация на основе NLI	Быстрая, точная для конкретной задачи	Требует дообучения, доменная зависимость, только один аспект
BERTscore	Попарное сходство эмбеддингов токенов	Учитывает синонимы, не требует LLM	Не улавливает семантику, нужен эталон, не оценивает факты

6. Когда какую альтернативу использовать

RAGAS — для оценки RAG-систем, когда есть контекст и нужно быстро проверить фактологичность и релевантность. Хорошо подходит для CI/CD пайплайнов.
DeBERTa-v3 — когда нужна высокая точность в конкретном аспекте (например, фактологичность для юридических документов) и есть размеченные данные для дообучения.
BERTscore — для задач, где есть эталонные ответы и важно лексическое разнообразие (например, суммаризация, машинный перевод). Не подходит для open-ended генерации.

7. Дополнительные альтернативы (кратко)

Хотя вопрос про три, стоит упомянуть ещё несколько для полноты:

ROUGE / BLEU — классические n-gram метрики. Ограничения: не учитывают семантику, штрафуют за перефразирования.
COMET — нейросетевая метрика для машинного перевода, требует эталон. Ограничения: обучена только на переводческих данных.
SelfCheckGPT — метод для оценки фактологичности без эталона, используя вероятности токенов. Ограничения: работает только для моделей типа GPT, требует доступа к logits.

8. Пет-проект для закрепления

Инструменты Python, ragas, transformers, bert-score, sentence-transformers, pandas, matplotlib.

Шаги:

Собрать датасет: 100 вопросов, для каждого — контекст (выдержка из документации), эталонный ответ и ответ, сгенерированный LLM (например, GPT-3.5).
Для каждого ответа вычислить:
- RAGAS: faithfulness и answer relevance (используя ragas).
- DeBERTa-v3: загрузить cross-encoder/nli-deberta-v3-large и оценить faithfulness (доля утверждений, поддерживаемых контекстом).
- BERTscore: сравнить ответ с эталоном (используя bert-score).
Построить корреляционную матрицу между метриками и визуализировать распределения.
Выявить случаи, где метрики расходятся, и проанализировать причины.

9. Связь с другими вопросами

Вопрос	Тема
5	Оценка качества retrieval в RAG
130	LLM-as-Judge: преимущества и недостатки
131	Метрики для оценки RAG (faithfulness, answer relevance)
132	Как избежать bias при LLM-as-Judge
134	Оценка качества генерации без эталонов
140	Fine-tuning моделей для специфических задач оценки

10. Навигация

Предыдущий: 132
Следующий: 134
Индекс: 00. Индекс разборов