Что такое pairwise comparison vs scalar rating? Когда что использовать?

Q: 1. Термины: Pairwise comparison и Scalar rating

**rating|Scalar rating** — метод, при котором пользователь оценивает один объект по заданной шкале (например, 1–5, 1–7, 1–10). Результат — rating|числовая оценка. Оба метода используются для сбора [[Вики/human-in-the-loop\|human feedback]] (человеческой обратной связи), которая критически важна для:

Q: 2. Pairwise comparison: плюсы и минусы

| Плюсы | Минусы | |-------|--------| | Меньше bias (смещения): пользователю легче сравнить два варианта, чем дать абсолютную оценку. | [[Вики/Scale\|Масштабирование]]: для ранжирования N вариантов нужно O(N²) сравнений (каждый с каждым). | | Высокая согласованность между аннотаторами (inter-annotator agreement). | Усталость пользователя: при большом количестве пар качество падает. |

Q: 3. Scalar rating: плюсы и минусы

| Плюсы | Минусы | |-------|--------| | Быстрота: один клик — одна оценка. | **Inter-user variability**: разные люди по-разному используют шкалу (один ставит 3 за «нормально», другой — 4). | | [[Вики/scalability\|Масштабируемость]]: линейная сложность O(N). | **Bias**: центральная тенденция, эффект якоря, порядковый bias. |

Q: 4. Когда что использовать: таблица решений

| Критерий | Pairwise comparison | Scalar rating | |----------|---------------------|---------------| | Цель | Исследование, калибровка, построение рейтинга | Быстрый сбор обратной связи в продакшне | | Количество вариантов | Мало (до 10–20) | Много (сотни тысяч) | | Требуемая точность | Высокая (нужно надёжное ранжирование) | Средняя (достаточно тренда) |

Q: 5. ELO-рейтинг на основе pairwise comparison

**[[Вики/Elo rating\|ELO]]** — система, изначально разработанная для шахмат, но отлично работающая для ранжирования LLM-ответов. Каждый ответ (или [[Вики/model\|модель]]) имеет [[Вики/Authority score\|рейтинг]]. После каждого [[Вики/pairwise\|pairwise]] сравнения [[Вики/Authority score\|рейтинг]] победителя повышается, проигравшего — понижается. Размер изменения зависит от ожидаемой [[Вики/probabilities\|вероятности]] победы.

Q: 6. Калибровка scalar rating с помощью pairwise

Поскольку [[Вики/scalar rating\|scalar rating]] страдает от [[Вики/inter-user variability\|inter-user variability]], его можно калибровать, периодически проводя [[Вики/pairwise\|pairwise]] сравнения на небольшом подмножестве данных. Алгоритм калибровки: 1. Собрать scalar оценки от всех пользователей.

Q: 7. Практические соображения в контексте Agentic RAG

В [[Вики/Agentic RAG\|Agentic RAG]] [[Вики/Evaluation\|оценка качества]] усложняется, потому что ответ агента — это не просто текст, а [[Вики/sequence\|последовательность]] действий ([[Вики/action\|tool calls]], [[Вики/reasoning steps\|reasoning steps]]). Здесь [[Вики/Pairwise comparison\|pairwise comparison]] особенно полезен:

Краткий тезис

Pairwise comparison (попарное сравнение) и scalar rating (rating|скалярная оценка) — два основных подхода к сбору человеческой обратной связи для оценки качества ответов LLM или ранжирования результатов retrieval. Pairwise просит пользователя выбрать лучший из двух вариантов, что даёт более надёжные данные, но требует O(n²) сравнений для полного ранжирования. rating|Scalar rating предлагает поставить оценку по шкале (например, 1–5), что быстрее, но страдает от inter-user variability (один пользователь ставит 3, другой — 5 за тот же ответ). Выбор зависит от задачи: pairwise лучше для исследовательских целей (ELO-рейтинг) и калибровки, scalar — для продакшн-сбора быстрой обратной связи. Оптимальная стратегия — комбинация: скаляр для массового сбора, pairwise для периодической калибровки.

1. Термины: Pairwise comparison и Scalar rating

Pairwise comparison — метод, при котором пользователю предъявляются два варианта ответа (или два документа, два чанка) и предлагается выбрать лучший (или указать, что они равны). Результат — бинарное или тернарное предпочтение.

rating|Scalar rating — метод, при котором пользователь оценивает один объект по заданной шкале (например, 1–5, 1–7, 1–10). Результат — rating|числовая оценка.

Оба метода используются для сбора human feedback (человеческой обратной связи), которая критически важна для:

оценки качества RAG-систем (faithfulness, relevance, helpfulness);
fine-tuning LLM (RLHF, DPO);
ранжирования результатов retrieval (re-ranking);
построения метрик для мониторинга продакшн-систем.

2. Pairwise comparison: плюсы и минусы

Плюсы	Минусы
Меньше bias (смещения): пользователю легче сравнить два варианта, чем дать абсолютную оценку.	Масштабирование: для ранжирования N вариантов нужно O(N²) сравнений (каждый с каждым).
Высокая согласованность между аннотаторами (inter-annotator agreement).	Усталость пользователя: при большом количестве пар качество падает.
Позволяет построить ELO-рейтинг (см. раздел 4).	Не даёт абсолютной меры качества: только относительное ранжирование.
Меньше подвержен «центральной тенденции» (пользователи избегают крайних оценок).	Сложность агрегации: если вариантов много, нужны турнирные схемы.

Термин «bias» — систематическое искажение оценок, не связанное с реальным качеством. Например, пользователи склонны ставить более высокие оценки первым вариантам (bias|order bias) или избегать крайних значений (central tendency bias).

3. Scalar rating: плюсы и минусы

Плюсы	Минусы
Быстрота: один клик — одна оценка.	Inter-user variability: разные люди по-разному используют шкалу (один ставит 3 за «нормально», другой — 4).
Масштабируемость: линейная сложность O(N).	Bias: центральная тенденция, эффект якоря, порядковый bias.
Даёт абсолютную меру: можно сравнивать оценки разных ответов напрямую.	Низкая согласованность между аннотаторами (Cohen's kappa часто < 0.5).
Легко интегрируется в UI (звёздочки, лайки).	Требует калибровки: нужно обучать пользователей или нормализовать оценки.

Термин «inter-user variability» — разброс оценок разных пользователей на один и тот же объект. Например, ответ «Хороший, но можно лучше» может получить 3 от одного и 5 от другого.

4. Когда что использовать: таблица решений

Критерий	Pairwise comparison	Scalar rating
Цель	Исследование, калибровка, построение рейтинга	Быстрый сбор обратной связи в продакшне
Количество вариантов	Мало (до 10–20)	Много (сотни тысяч)
Требуемая точность	Высокая (нужно надёжное ранжирование)	Средняя (достаточно тренда)
Ресурсы (время аннотаторов)	Много (каждое сравнение занимает время)	Мало (один клик)
Пример в RAG	Оценка двух версий ответа LLM на один запрос	Оценка каждого ответа по шкале «полезно/бесполезно»
Пример в Agentic RAG	Выбор лучшего действия агента из двух траекторий	Оценка успешности выполнения задачи (0–100)

Правило большого пальца: если вы хотите понять, какой из двух подходов (chunking strategy, embedding model, prompt) лучше — используйте pairwise. Если вам нужно мониторить качество в реальном времени — scalar.

5. ELO-рейтинг на основе pairwise comparison

ELO — система, изначально разработанная для шахмат, но отлично работающая для ранжирования LLM-ответов. Каждый ответ (или модель) имеет рейтинг. После каждого pairwise сравнения рейтинг победителя повышается, проигравшего — понижается. Размер изменения зависит от ожидаемой вероятности победы.

Формула обновления рейтинга:

R_A' = R_A + K * (S_A - E_A)

где:

R_A — текущий рейтинг A;
K — коэффициент (обычно 16–32);
S_A — результат: 1 если A победил, 0 если проиграл, 0.5 если ничья;
E_A — ожидаемый результат: 1 / (1 + 10^((R_B - R_A)/400)).

Преимущество ELO: позволяет ранжировать произвольное количество вариантов, не проводя все O(N²) сравнений — достаточно турнирной сетки или случайных пар.

Пример в Agentic RAG: сравнение разных стратегий ретривера (BM25 vs dense vs hybrid) на наборе запросов. Каждый запрос — «матч» между двумя стратегиями. После 1000 сравнений получаем ELO-рейтинг каждой стратегии.

6. Калибровка scalar rating с помощью pairwise

Поскольку scalar rating страдает от inter-user variability, его можно калибровать, периодически проводя pairwise сравнения на небольшом подмножестве данных.

Алгоритм калибровки:

Собрать scalar оценки от всех пользователей.
Выбрать случайную пару ответов, которые получили разные оценки.
Попросить пользователя (или группу экспертов) сделать pairwise сравнение.
Если pairwise результат не согласуется со scalar (например, ответ с оценкой 4 проиграл ответу с оценкой 3), значит шкала пользователя смещена.
Применить коррекцию: например, вычесть персональное смещение (user bias) из всех оценок.

Термин «user bias» — систематическое отклонение оценок конкретного пользователя от среднего. Например, пользователь всегда ставит на 1 балл выше, чем в среднем.

7. Практические соображения в контексте Agentic RAG

В Agentic RAG оценка качества усложняется, потому что ответ агента — это не просто текст, а последовательность действий (tool calls, reasoning steps). Здесь pairwise comparison особенно полезен:

Сравнение траекторий: две версии агента выполняют одну задачу. Пользователь (или LLM-as-judge) выбирает, какая траектория лучше (по критериям успешность, эффективность, безопасность).
Scalar rating можно использовать для оценки отдельных шагов: например, насколько корректно агент выбрал инструмент (0–1) или насколько полон ответ (1–5).

LLM-as-judge — использование LLM для автоматической оценки вместо человека. В этом контексте pairwise сравнение часто даёт более надёжные результаты, чем scalar, потому что LLM тоже страдает от bias (например, предпочитает более длинные ответы). Pairwise снижает этот bias.

8. Комбинированный подход: best of both worlds

Рекомендуемая стратегия для продакшн-системы:

Scalar rating — основной канал сбора обратной связи (каждый ответ получает оценку 1–5). Данные идут в дашборд мониторинга.
Pairwise comparison — периодически (раз в неделю) проводить A/B-тесты: показывать пользователю два ответа от разных версий модели и просить выбрать лучший.
Калибровка — использовать pairwise результаты для корректировки scalar оценок (вычисление user bias, нормализация).
ELO-рейтинг — строить на основе pairwise данных для ранжирования стратегий (chunk size, embedding model, prompt template).

Такой подход даёт и скорость, и точность.

9. Пет-проект для закрепления

Задача: Реализовать систему сбора обратной связи для RAG-агента, которая использует оба метода, и сравнить их эффективность.

Инструменты:

Python (FastAPI для бэкенда, Streamlit для UI)
База данных (SQLite или PostgreSQL)
LLM (любая open-source, например, Llama 3 или Mistral)
Библиотека для ELO (можно написать самому)

Шаги:

Создайте простой RAG-агент, который отвечает на вопросы по документам.
Реализуйте два режима оценки:
- Scalar: после каждого ответа показывайте слайдер 1–5.
- Pairwise: после каждых двух запросов показывайте два предыдущих ответа и просите выбрать лучший.
Соберите 100+ оценок от нескольких пользователей (или симулируйте с помощью LLM-as-judge).
Постройте ELO-рейтинг для разных версий агента (например, с разными chunk sizes).
Сравните согласованность (inter-annotator agreement) для scalar и pairwise.
Напишите скрипт калибровки scalar оценок с помощью pairwise данных.

Ожидаемый результат:

Таблица с ELO-рейтингом версий агента.
График распределения scalar оценок до и после калибровки.
Вывод: pairwise даёт более стабильное ранжирование, но требует больше данных; scalar быстрее, но нуждается в калибровке.

10. Связь с другими вопросами

Вопрос	Тема
490	Как оценивать качество ответов RAG-системы?
491	Что такое LLM-as-judge и какие у него ограничения?
492	Как собирать human feedback в продакшн-системе?
493	Что такое DPO и как он использует pairwise preference?
494	Как построить ELO-рейтинг для RAG-пайплайнов?
496	Как бороться с bias в оценках пользователей?

11. Навигация

Предыдущий: 494
Следующий: 496
Индекс: 00. Индекс разборов