Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?

Q: Краткий тезис

**[[Вики/Item Response Theory\|IRT]] ([[Вики/Item Response Theory\|Item Response Theory]])** — это статистическая [[Вики/model\|модель]] из образовательного тестирования, которая оценивает латентную способность испытуемого и параметры заданий (сложность, [[Вики/bias\|дискриминация]], [[Вики/угадывание\|угадывание]]) на основе паттернов ответов. В контексте [[Вики/LLM\|LLM]] эвалюации [[Вики/Item Response Theory\|IRT]] позволяет получать несмещённые оценки качества модели, учитывая, что разные во

Q: 1. Термин: Item Response Theory (IRT)

Основные компоненты [[Вики/Item Response Theory\|IRT]]: - **Способность (θ)** — непрерывная переменная, характеризующая уровень знаний/навыков испытуемого (в нашем случае — качество [[Вики/LLM\|LLM]]). - Параметры задания: - **Сложность (b)** — [[Вики/threshold\|порог]] способности, при котором вероятность правильного ответа равна 0.5 (для [[Вики/2PL\|2PL]] модели).

Q: 2. Проблема сырой accuracy в LLM эвалюации

Традиционная метрика [[Вики/accuracy\|accuracy]] ([[Вики/stake\|доля]] правильных ответов) имеет фундаментальные недостатки при оценке [[Вики/LLM\|LLM]]: - Не учитывает сложность вопросов: [[Вики/model\|модель]] может показывать 90% [[Вики/accuracy\|accuracy]] на лёгких вопросах и 50% на сложных, но средняя [[Вики/accuracy\|accuracy]] не отражает этот разрыв.

Q: 3. Основные модели IRT

Существует несколько моделей [[Вики/Item Response Theory\|IRT]], различающихся количеством параметров задания: | Модель | Параметры | Формула вероятности правильного ответа | Применение | |--------|-----------|----------------------------------------|------------| | **1PL (Rasch model)** | b (сложность) | P = 1 / (1 + exp(-(θ - b))) | Простая модель, все вопросы имеют одинаковую дискриминацию |

Q: 4.1 Сбор данных

Q: 4.2 Калибровка модели IRT

С помощью методов максимального правдоподобия ([[Вики/MLE\|MLE]]) или байесовского оценивания ([[Вики/EAP\|EAP]], [[Вики/AP\|MAP]]) оцениваются параметры вопросов (a, b, c) и способности моделей (θ). Популярные библиотеки: [[Вики/pyirt\|pyirt]], irtoys, [[Вики/многомерная IRT\|mirt]] (R).

Q: 4.3 Интерпретация результатов

- θ модели — её оценённая способность на единой шкале (обычно N(0,1)). [[Вики/model\|Модель]] с θ=1.0 на 1 [[Вики/standard deviation\|стандартное отклонение]] выше среднего. - Параметры вопросов: - b > 0 — сложный вопрос (требует высокой способности). - a > 1 — высокая [[Вики/bias\|дискриминация]] (хорошо разделяет модели).

Q: 5. Преимущества IRT перед сырой accuracy

| Аспект | Сырая accuracy | IRT | |--------|----------------|-----| | Учёт сложности вопросов | Нет | Да, через параметр b | | Учёт дискриминации | Нет | Да, через параметр a | | Устойчивость к шуму | Низкая | Высокая (модель взвешивает вопросы) | | Сравнение на разных наборах | Некорректно | Возможно (при общей калибровке) |

Краткий тезис

IRT (Item Response Theory) — это статистическая модель из образовательного тестирования, которая оценивает латентную способность испытуемого и параметры заданий (сложность, дискриминация, угадывание) на основе паттернов ответов. В контексте LLM эвалюации IRT позволяет получать несмещённые оценки качества модели, учитывая, что разные вопросы имеют разную сложность и дискриминационную силу, а также исправляет искажения сырой accuracy из-за шума в данных. Это даёт возможность сравнивать модели, даже если они протестированы на разных наборах вопросов.

1. Термин: Item Response Theory (IRT)

IRT — это семейство вероятностных моделей, которые связывают наблюдаемые ответы испытуемого на задания (items) с его латентной (скрытой) способностью (θ). В отличие от классической теории тестов (CTT), где используется просто сумма правильных ответов, IRT моделирует вероятность правильного ответа как функцию от способности и параметров задания.

Основные компоненты IRT:

Способность (θ) — непрерывная переменная, характеризующая уровень знаний/навыков испытуемого (в нашем случае — качество LLM).
Параметры задания:
- Сложность (b) — порог способности, при котором вероятность правильного ответа равна 0.5 (для 2PL модели).
- Дискриминация (a) — крутизна логистической кривой; показывает, насколько хорошо задание разделяет испытуемых с разной способностью.
- Угадывание (c) — нижняя асимптота; вероятность правильного ответа для испытуемого с очень низкой способностью (чистое угадывание).

IRT широко применяется в стандартизированных тестах (GRE, SAT), а теперь и в оценке LLM.

2. Проблема сырой accuracy в LLM эвалюации

Традиционная метрика accuracy (доля правильных ответов) имеет фундаментальные недостатки при оценке LLM:

Не учитывает сложность вопросов: модель может показывать 90% accuracy на лёгких вопросах и 50% на сложных, но средняя accuracy не отражает этот разрыв.
Зависимость от набора вопросов: разные бенчмарки имеют разный уровень сложности; сравнение моделей по accuracy на разных наборах некорректно.
Влияние шума в данных: некоторые вопросы могут быть плохо сформулированы или иметь неоднозначные ответы, что искажает accuracy.
Не позволяет оценить дискриминацию: accuracy не говорит, насколько хорошо вопрос различает сильные и слабые модели.

IRT решает эти проблемы, моделируя каждый вопрос отдельно и выводя единую шкалу способности.

3. Основные модели IRT

Существует несколько моделей IRT, различающихся количеством параметров задания:

Модель	Параметры	Формула вероятности правильного ответа	Применение
1PL (Rasch model)	b (сложность)	P = 1 / (1 + exp(-(θ - b)))	Простая модель, все вопросы имеют одинаковую дискриминацию
2PL	a (дискриминация), b (сложность)	P = 1 / (1 + exp(-a(θ - b)))	Учитывает разную дискриминацию вопросов
3PL	a, b, c (угадывание)	P = c + (1 - c) / (1 + exp(-a(θ - b)))	Для заданий с возможностью угадывания (например, multiple choice)

Для LLM эвалюации чаще всего используется 2PL или 3PL, так как вопросы бенчмарков имеют разную дискриминацию, а в multiple-choice есть вероятность угадывания.

4. Как IRT применяется к LLM эвалюации: пошаговый процесс

4.1 Сбор данных

Нужен датасет ответов нескольких LLM на набор вопросов (например, MMLU, HellaSwag, TruthfulQA). Для каждого вопроса известно, правильный ответ или нет (бинарная метка).

4.2 Калибровка модели IRT

С помощью методов максимального правдоподобия (MLE) или байесовского оценивания (EAP, MAP) оцениваются параметры вопросов (a, b, c) и способности моделей (θ). Популярные библиотеки: pyirt, irtoys, mirt (R).

Пример кода на Python с использованием pyirt:

from pyirt import irt

# data: список словарей [{'item_id': 'q1', 'subject_id': 'model_A', 'response': 1}, ...]
data = [
    {'item_id': 'q1', 'subject_id': 'model_A', 'response': 1},
    {'item_id': 'q1', 'subject_id': 'model_B', 'response': 0},
    {'item_id': 'q2', 'subject_id': 'model_A', 'response': 0},
    {'item_id': 'q2', 'subject_id': 'model_B', 'response': 1},
]

# Калибровка 2PL модели
result = irt(data, model='2PL')

# Извлечение параметров
item_params = result['items']  # {'q1': {'a': 1.2, 'b': 0.5}, ...}
ability_params = result['subjects']  # {'model_A': 0.8, 'model_B': -0.3}

4.3 Интерпретация результатов

θ модели — её оценённая способность на единой шкале (обычно N(0,1)). Модель с θ=1.0 на 1 стандартное отклонение выше среднего.
Параметры вопросов:
- b > 0 — сложный вопрос (требует высокой способности).
- a > 1 — высокая дискриминация (хорошо разделяет модели).
- c > 0.25 — есть эффект угадывания (для 4-вариантного multiple-choice случайное угадывание даёт 0.25).

4.4 Сравнение моделей

IRT позволяет сравнивать модели, даже если они тестировались на разных подмножествах вопросов, при условии, что вопросы были откалиброваны на общей выборке. Это называется эквивалентность тестов (test equating).

5. Преимущества IRT перед сырой accuracy

Аспект	Сырая accuracy	IRT
Учёт сложности вопросов	Нет	Да, через параметр b
Учёт дискриминации	Нет	Да, через параметр a
Устойчивость к шуму	Низкая	Высокая (модель взвешивает вопросы)
Сравнение на разных наборах	Некорректно	Возможно (при общей калибровке)
Интерпретация шкалы	Проценты	Стандартизованная шкала (θ)
Возможность выявить плохие вопросы	Нет	Да (низкая a, экстремальная b)

6. Пример использования IRT в современных бенчмарках

MMLU (Massive Multitask Language Understanding): исследователи применяли IRT для анализа сложности вопросов и выявления тем, где модели ошибаются чаще.
Chatbot Arena|Chatbot Arena]] (LMSYS): использует модель Bradley-Terry (частный случай IRT) для ранжирования моделей на основе попарных предпочтений пользователей.
Big-Bench: в некоторых работах IRT применялась для калибровки заданий и оценки способности моделей к рассуждению.

7. Ограничения и вызовы IRT для LLM

Предположение о локальной независимости: IRT предполагает, что ответы на разные вопросы независимы при фиксированной способности. Для LLM это может нарушаться, если вопросы связаны (например, цепочка рассуждений).
Одномерность: базовая IRT предполагает одну латентную способность. LLM же имеют множество навыков (логика, знание фактов, креативность). Расширения — многомерная IRT (MIRT).
Необходимость большого количества данных: для точной калибровки нужно много моделей и вопросов (обычно >100 моделей, >1000 вопросов).
Динамика моделей: LLM быстро обновляются, и параметры вопросов могут меняться со временем (например, из-за утечки данных в обучение).

8. Инструменты и библиотеки для IRT

Инструмент	Язык	Описание
pyirt	Python	Простая реализация 1PL/2PL/3PL, подходит для экспериментов
mirt	R	Мощный пакет для многомерной IRT, CFA
ltm	R	Классические модели IRT
Stan	Prob. programming	Гибкая байесовская реализация IRT
EdSurvey	R	Анализ образовательных данных с IRT

9. Пет-проект для закрепления

Задача: Оценить качество трёх LLM (например, GPT-3.5, GPT-4, Llama-2-7b) на 200 вопросах из MMLU с помощью IRT и сравнить с сырой accuracy.

Инструменты: Python, pyirt, pandas, numpy, matplotlib.

Шаги:

Собрать ответы моделей на 200 вопросов MMLU (можно использовать API или готовые датасеты).
Подготовить данные в формате [{'item_id': ..., 'subject_id': ..., 'response': 0/1}].
Откалибровать 2PL модель с помощью pyirt.
Извлечь θ для каждой модели и параметры вопросов.
Построить график характеристических кривых вопросов (ICC) для нескольких вопросов с разной сложностью.
Сравнить ранжирование моделей по accuracy и по θ. Обсудить расхождения.

Ожидаемый результат: Вы увидите, что IRT корректирует оценку: модель, показывающая высокую accuracy за счёт лёгких вопросов, получит более низкую θ, чем модель, которая хорошо отвечает на сложные вопросы.

10. Связь с другими вопросами

Вопрос	Тема
170	Что такое эвалюация LLM и какие бывают виды?
172	Как проводить человеческую эвалюацию LLM?
173	Какие автоматические метрики для эвалюации LLM вы знаете?
174	Какие бенчмарки для LLM вы знаете?
175	Что такое калибровка модели и как её оценивать?
176	Как оценивать bias в LLM?

11. Навигация

Предыдущий: 170
Следующий: 172
Индекс: 00. Индекс разборов