Что такое Positional bias в LLM-as-Judge и как его исправить?

Q: 1. Термин: LLM-as-Judge

**[[Вики/LLM-as-a-judge\|LLM-as-Judge]]** — это подход, при котором [[Вики/LLM\|большая языковая модель]] используется для автоматической оценки качества ответов другой модели (или нескольких моделей). [[Вики/Judge agent\|Судья]] получает [[Вики/промпт агента\|запрос]] и пару ответов (A и B) и должен выбрать лучший или поставить оценку.

Q: 2. Positional bias: определение и причины

Причины возникновения - Архитектурные Модели с [[Вики/Causal attention\|causal attention]] ([[Вики/OpenAI API\|GPT]], [[Вики/Transformer\|LLaMA]]) обрабатывают [[Вики/токены\|токены]] последовательно. Первый ответ получает больше «внимания» в начале контекста. - [[Вики/Train set\|Обучающие данные]] Если в данных для [[Вики/SFT\|fine-tuning]] судьи ответ A чаще был правильным, [[Вики/model\|модель]] выучивает корреляцию «позиция 1 = хороший ответ».

Q: 3. Детекция positional bias

**Метод [[Вики/Swap\|swap]] ([[Вики/Swap\|перестановка]]):** 1. Берём пару ответов (A, B). 2. Оцениваем в порядке (A, B) — получаем результат. 3. Оцениваем в порядке (B, A) — получаем результат. 4. Если результаты различаются ([[Вики/Judge agent\|судья]] выбрал первый в обоих случаях) — есть [[Вики/Position bias\|bias]].

Q: 6. Метод 3: Prompt engineering

Идея Специально формулировать [[Вики/prompt\|промпт]], чтобы [[Вики/model\|модель]] не обращала внимания на порядок. Техники - Явное указание «Оценивай ответы независимо от их порядка. Не позволяй позиции влиять на твой выбор.» - Раздельная [[Вики/Evaluation\|оценка]] Попросить [[Вики/model\|модель]] сначала оценить каждый ответ отдельно по шкале (1-5), а потом сравнить.

Q: 8. Сравнительная таблица методов исправления

| Метод | Сложность | Стоимость | Эффективность | Когда использовать | |---|---|---|---|---| | Random swap + агрегация | Низкая | Средняя (N запусков) | Средняя | Быстрый прототип, небольшой бюджет | | Multiple judges | Средняя | Высокая (несколько моделей) | Высокая | Критичные оценки, production |

Краткий тезис

Positional bias — это систематическая ошибка LLM-судьи, при которой модель предпочитает ответ, стоящий на определённой позиции (чаще первой) в паре, независимо от его качества. Это искажает оценку в задачах ранжирования и сравнения. Исправляется комбинацией методов: рандомизация порядка ответов, ансамбль нескольких судей, специальные промпты и калибровка на swap-примерах.

1. Термин: LLM-as-Judge

LLM-as-Judge — это подход, при котором большая языковая модель используется для автоматической оценки качества ответов другой модели (или нескольких моделей). Судья получает запрос и пару ответов (A и B) и должен выбрать лучший или поставить оценку.

Зачем нужен LLM-судья

Ручная оценка дорога и медленна.
Автоматические метрики (ROUGE, BLEU) плохо коррелируют с человеческим восприятием.
LLM может учитывать семантику, фактологию и стиль.

Проблема LLM-судьи подвержены различным bias (смещениям), которые искажают результаты. bias|Positional bias — один из самых распространённых.

2. Positional bias: определение и причины

Positional bias — это тенденция модели-судьи отдавать предпочтение ответу, расположенному на определённой позиции (первой или второй) в паре, вне зависимости от его содержания.

Причины возникновения

Архитектурные Модели с causal attention (GPT, LLaMA) обрабатывают токены последовательно. Первый ответ получает больше «внимания» в начале контекста.
Обучающие данные Если в данных для fine-tuning судьи ответ A чаще был правильным, модель выучивает корреляцию «позиция 1 = хороший ответ».
Промпт-дизайн Формулировка инструкции может неявно подталкивать к выбору первого ответа (например, «сравни ответы ниже: A: ... B: ...»).
Длина контекста При длинных ответах модель может «забывать» второй ответ из-за ограничения контекстного окна.

Пример bias

Запрос: «Какая столица Франции?»
Ответ A: «Париж — столица Франции, известная Эйфелевой башней.»
Ответ B: «Париж.»
Судья выбирает A (первый), хотя B тоже корректен и лаконичнее.
После swap (позиции меняются) судья снова выбирает тот, что стал первым — теперь B.

3. Детекция positional bias

Метод swap (перестановка):

Берём пару ответов (A, B).
Оцениваем в порядке (A, B) — получаем результат.
Оцениваем в порядке (B, A) — получаем результат.
Если результаты различаются (судья выбрал первый в обоих случаях) — есть bias.

Метрика bias rate

bias_rate = (количество пар, где выбор изменился после swap) / (общее количество пар)

bias_rate = 0 — идеально (нет bias).
bias_rate ≈ 0.5 — случайный выбор (модель не может различить качество).
bias_rate > 0.5 — есть систематическое смещение (например, 0.8 означает, что в 80% случаев судья предпочитает первую позицию).

Пример кода детекции

def detect_positional_bias(judge_model, query, answer_a, answer_b, n_runs=5):
    results = []
    for _ in range(n_runs):
        # Прямой порядок
        result_ab = judge_model.evaluate(query, answer_a, answer_b)
        # Обратный порядок
        result_ba = judge_model.evaluate(query, answer_b, answer_a)
        results.append((result_ab, result_ba))
    
    # Считаем, сколько раз выбор совпал с первой позицией
    bias_count = sum(1 for ab, ba in results if ab == 'A' and ba == 'B')
    return bias_count / len(results)

4. Метод 1: Random swap и агрегация

Идея Случайным образом менять порядок ответов в каждой оценке, а затем усреднять результаты по нескольким запускам.

Алгоритм

Для каждой пары (A, B) генерируем случайный порядок (A,B) или (B,A).
Запускаем судью N раз (например, 5-10) с разными случайными порядками.
Агрегируем результаты: если судья выбрал A в 7 из 10 запусков, то A побеждает.

Преимущества

Простота реализации.
Не требует дополнительных данных.
Усредняет bias, но не устраняет его полностью.

Недостатки

Увеличивает стоимость (N запусков вместо 1).
Bias может быть настолько сильным, что даже усреднение не помогает.

import random

def evaluate_with_random_swap(judge, query, answer_a, answer_b, n_runs=5):
    wins_a = 0
    for _ in range(n_runs):
        if random.random() < 0.5:
            result = judge.evaluate(query, answer_a, answer_b)
            if result == 'A':
                wins_a += 1
        else:
            result = judge.evaluate(query, answer_b, answer_a)
            if result == 'B':  # B на первой позиции, судья выбрал B -> значит A проиграл
                pass
            else:
                wins_a += 1
    return 'A' if wins_a > n_runs / 2 else 'B'

5. Метод 2: Multiple judges (ансамбль судей)

Идея Использовать несколько разных LLM-судей и агрегировать их решения через majority vote (голосование большинством).

Варианты

Разные модели: GPT-4, Claude, LLaMA, Mistral.
Одна модель с разными промптами.
Одна модель с разными температурами.

Таблица сравнения

Конфигурация	Стоимость	Устойчивость к bias	Сложность
Один судья, 1 запуск	Низкая	Низкая	Низкая
Один судья, N запусков (random swap)	Средняя	Средняя	Низкая
3 разных судьи, majority vote	Высокая	Высокая	Средняя
5 разных судей, majority vote	Очень высокая	Очень высокая	Высокая

Пример:

from collections import Counter

def ensemble_judge(judges, query, answer_a, answer_b):
    votes = []
    for judge in judges:
        # Каждый судья оценивает со случайным swap
        result = evaluate_with_random_swap(judge, query, answer_a, answer_b)
        votes.append(result)
    # Majority vote
    counter = Counter(votes)
    return counter.most_common(1)[0][0]

6. Метод 3: Prompt engineering

Идея Специально формулировать промпт, чтобы модель не обращала внимания на порядок.

Техники

Явное указание «Оценивай ответы независимо от их порядка. Не позволяй позиции влиять на твой выбор.»
Раздельная оценка Попросить модель сначала оценить каждый ответ отдельно по шкале (1-5), а потом сравнить.
Chain-of-Thought (CoT): «Сначала проанализируй каждый ответ по критериям: фактологичность, полнота, ясность. Затем сравни.»
Форматирование Использовать нумерованные списки или таблицы, чтобы снизить влияние позиции.

Пример промпта с CoT

Ты — эксперт-судья. Тебе даны два ответа на вопрос.

Вопрос: {query}

Ответ 1: {answer_a}
Ответ 2: {answer_b}

Инструкция:
1. Прочитай оба ответа.
2. Оцени каждый ответ по шкале 1-5 по критериям: точность, полнота, релевантность.
3. Запиши оценки в формате: "Оценка ответа 1: X", "Оценка ответа 2: Y".
4. Сравни оценки и выбери лучший ответ.
5. Важно: не позволяй порядку ответов влиять на твоё решение. Оценивай только содержание.

Эффективность Умеренная. Помогает, но не устраняет bias полностью, особенно у сильных моделей.

7. Метод 4: Calibration (калибровка)

Идея Обучить или дообучить модель-судью на специальном датасете swap-примеров, чтобы она научилась игнорировать позицию.

Подходы

Fine-tuning на парах с swap Создаём датасет, где для каждой пары (A, B) есть два варианта: (A,B) с меткой «A лучше» и (B,A) с той же меткой «A лучше». Модель учится давать одинаковый ответ независимо от порядка.
Preference tuning (RLHF/DPO): Используем человеческие предпочтения, где порядок рандомизирован, чтобы модель не выучила bias.
LoRA-адаптеры Дообучаем небольшую часть параметров на swap-датасете.

Пример создания датасета для калибровки

# Исходные данные: пары (query, answer_a, answer_b, preferred_answer)
calibration_data = []
for query, a, b, preferred in dataset:
    # Прямой порядок
    calibration_data.append({
        'query': query,
        'answer_a': a,
        'answer_b': b,
        'label': preferred  # 'A' или 'B'
    })
    # Обратный порядок
    calibration_data.append({
        'query': query,
        'answer_a': b,
        'answer_b': a,
        'label': 'B' if preferred == 'A' else 'A'  # Меняем метку
    })

Эффективность Высокая, но требует дополнительных данных и вычислительных ресурсов.

8. Сравнительная таблица методов исправления

Метод	Сложность	Стоимость	Эффективность	Когда использовать
Random swap + агрегация	Низкая	Средняя (N запусков)	Средняя	Быстрый прототип, небольшой бюджет
Multiple judges	Средняя	Высокая (несколько моделей)	Высокая	Критичные оценки, production
Prompt engineering	Низкая	Низкая	Низкая-Средняя	Всегда как базовый слой
Calibration (fine-tuning)	Высокая	Очень высокая	Очень высокая	Собственный судья, high-load система

Рекомендуемый пайплайн

Всегда используй prompt engineering (CoT, раздельная оценка).
Добавь random swap с 3-5 запусками.
Если bias_rate > 0.3 — подключай multiple judges.
Если bias критичен для бизнеса — calibration.

9. Пет-проект для закрепления

Задача Разработать систему оценки ответов LLM, устойчивую к positional bias.

Инструменты

Python, LangChain, OpenAI API (или локальная модель через Ollama).
Датасет: MT-Bench (пары ответов от разных моделей).
Метрики: bias_rate, согласованность с человеческими оценками.

Шаги:

Сбор данных Загрузи MT-Bench (или сгенерируй 100 пар ответов от GPT-3.5 и GPT-4 на разные вопросы).
Базовый судья Реализуй LLM-as-Judge с простым промптом («выбери лучший ответ»).
Детекция bias Для каждой пары выполни swap и посчитай bias_rate.
Исправление
- Реализуй random swap с агрегацией (5 запусков).
- Добавь CoT-промпт.
- Подключи второго судью (например, Claude через API).
Оценка Сравни bias_rate и accuracy (совпадение с человеческими оценками) для каждого метода.
Визуализация Построй график зависимости bias_rate от метода.

Ожидаемый результат

bias_rate снизится с ~0.7 (базовый судья) до <0.2 (комбинация методов).
Accuracy (совпадение с человеком) вырастет на 10-15%.
Готовый скрипт для оценки с конфигурацией методов.

10. Связь с другими вопросами

Вопрос	Тема
490	LLM-as-Judge: общие принципы и метрики
491	Оценка faithfulness в RAG
492	Bias в LLM-судьях: обзор (lengh bias, self-enhancement)
494	Как оценивать качество ответов LLM без судьи?
495	RAGAS и другие фреймворки для оценки RAG
500	Human evaluation vs LLM-as-Judge

11. Навигация

Предыдущий: 492
Следующий: 494
Индекс: 00. Индекс разборов