Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?

Q: Краткий тезис

**[[Вики/Item Response Theory\|IRT]] ([[Вики/Item Response Theory\|Item Response Theory]])** — это статистическая [[Вики/model\|модель]] из образовательного тестирования, которая оценивает латентную [[Вики/способность модели\|способность модели]] (θ) и [[Вики/сложность вопроса\|сложность вопроса]] (β) на основе [[Вики/probabilities\|вероятности]] правильного ответа. В контексте [[Вики/LLM\|LLM]] эвалюации [[Вики/Item Response Theory\|IRT]] позволяет получать несмещённые оценки качества модели, у

Q: 1. Термин: Item Response Theory (IRT)

Ключевые компоненты [[Вики/Item Response Theory\|IRT]] - **θ (theta)** — [[Вики/латентная способность\|латентная способность]] модели (непрерывная переменная, обычно от -3 до +3). - **β ([[Вики/Temperature\|beta]])** — [[Вики/сложность вопроса\|сложность задания]] ([[Вики/сложность вопроса\|item difficulty]]): чем выше β, тем сложнее задание.

Q: 2. Формула вероятности правильного ответа (1PL)

Для модели 1PL вероятность того, что [[Вики/model\|модель]] с способностью θ даст [[Вики/gold standard\|правильный ответ]] на задание сложности β, задаётся логистической функцией: P(θ) = 1 / (1 + exp(-(θ - β))) Интерпретация - Если θ = β, то P = 0.5 ([[Вики/model\|модель]] отвечает случайно).

Q: 3. Как IRT применяется к LLM эвалюации

Традиционная эвалюация [[Вики/LLM\|LLM]] использует сырую [[Вики/accuracy\|accuracy]] ([[Вики/stake\|доля]] правильных ответов на бенчмарке). Проблема: [[Вики/accuracy\|accuracy]] зависит от сложности вопросов. Если [[Вики/model\|модель]] A тестировалась на лёгких вопросах, а [[Вики/model\|модель]] B — на сложных, [[Вики/accuracy\|accuracy]] может ввести в заблуждение.

Q: 4. Преимущества IRT перед сырой accuracy

| Аспект | Сырая accuracy | IRT (θ) | |--------|----------------|---------| | Зависимость от сложности вопросов | Сильная | Отсутствует (θ инвариантна) | | Сравнение моделей на разных бенчмарках | Некорректно | Возможно (через общие вопросы или калибровку) | | Информация о вопросах | Не даёт | Оценивает сложность и дискриминативность |

Q: 5. Оценка параметров IRT

Q: 6. Практические аспекты применения IRT к LLM

- Используйте существующие [[Вики/Benchmarks\|бенчмарки]] ([[Вики/MMLU\|MMLU]], [[Вики/HellaSwag\|HellaSwag]], [[Вики/GSM8K\|GSM8K]]) с бинарными метками (правильно/неправильно). - Для генеративных задач можно использовать [[Вики/LLM-as-a-judge\|LLM-as-a-judge]] или автоматические метрики ([[Вики/ROUGE\|ROUGE]], [[Вики/BLEU\|BLEU]]) с порогом.

Q: 7. Связь IRT с другими подходами к эвалюации

| Метод | Суть | Отличие от IRT | |-------|------|----------------| | [[Вики/Elo rating\|Elo rating]] | Рейтинг на основе парных сравнений | Не использует сложность вопросов, только результаты игр | | [[Вики/Bradley-Terry модель\|Bradley-Terry]] | Вероятность победы одной модели над другой | Аналогично Elo, не моделирует вопросы |

Краткий тезис

IRT (Item Response Theory) — это статистическая модель из образовательного тестирования, которая оценивает латентную способность модели (θ) и сложность вопроса (β) на основе вероятности правильного ответа. В контексте LLM эвалюации IRT позволяет получать несмещённые оценки качества модели, устраняя искажения сырой accuracy, вызванные разной сложностью вопросов в бенчмарках. Это даёт возможность сравнивать модели, даже если они тестировались на разных наборах заданий, и выявлять перекосы в данных.

1. Термин: Item Response Theory (IRT)

IRT — это семейство моделей, которые связывают наблюдаемый ответ испытуемого (в нашем случае — LLM) на задание (item) с ненаблюдаемой (латентной) характеристикой — способностью (θ). В отличие от классической теории тестов (CTT), где используется сырой балл (сумма правильных ответов), IRT моделирует каждый ответ отдельно, учитывая параметры задания.

Ключевые компоненты IRT

θ (theta) — латентная способность модели (непрерывная переменная, обычно от -3 до +3).
β (beta) — сложность задания (item difficulty): чем выше β, тем сложнее задание.
α (alpha) — дискриминативность задания (item discrimination): насколько резко задание разделяет модели с разной способностью.
γ (gamma) — параметр угадывания (guessing parameter) для заданий с выбором ответа.

Основные модели IRT

1PL (модель|Rasch model): только β, α фиксировано = 1, γ = 0.
2PL: α и β, γ = 0.
3PL: α, β, γ.

В LLM эвалюации чаще всего используется 1PL или 2PL, так как угадывание для генеративных моделей нехарактерно.

2. Формула вероятности правильного ответа (1PL)

Для модели 1PL вероятность того, что модель с способностью θ даст правильный ответ на задание сложности β, задаётся логистической функцией:

P(θ) = 1 / (1 + exp(-(θ - β)))

Интерпретация

Если θ = β, то P = 0.5 (модель отвечает случайно).
Если θ > β, то P > 0.5 (модель справляется).
Если θ < β, то P < 0.5 (модель не справляется).

Пример:

Задание сложностью β = 0.5.
Модель A с θ = 1.0: P = 1/(1+exp(-(1.0-0.5))) = 1/(1+exp(-0.5)) ≈ 0.62.
Модель B с θ = -0.5: P = 1/(1+exp(-(-0.5-0.5))) = 1/(1+exp(1.0)) ≈ 0.27.

Таким образом, модель A имеет более высокую вероятность правильного ответа, что согласуется с её большей способностью.

3. Как IRT применяется к LLM эвалюации

Традиционная эвалюация LLM использует сырую accuracy (доля правильных ответов на бенчмарке). Проблема: accuracy зависит от сложности вопросов. Если модель A тестировалась на лёгких вопросах, а модель B — на сложных, accuracy может ввести в заблуждение.

IRT решает эту проблему

Оценка способности модели (θ) — непрерывная метрика, инвариантная к набору вопросов.
Оценка сложности вопросов (β) — позволяет калибровать бенчмарк и выявлять слишком лёгкие или слишком сложные задания.
Сравнение моделей — даже если модели тестировались на разных подмножествах вопросов, можно оценить их θ и сравнить.

Процесс применения

Собирается матрица ответов: строки — модели (или одна модель на разных этапах), столбцы — вопросы, значения — 1 (правильно) / 0 (неправильно).
Оцениваются параметры θ для каждой модели и β для каждого вопроса (например, методом максимального правдоподобия или EM-алгоритмом).
Полученные θ используются как итоговая метрика качества.

4. Преимущества IRT перед сырой accuracy

Аспект	Сырая accuracy	IRT (θ)
Зависимость от сложности вопросов	Сильная	Отсутствует (θ инвариантна)
Сравнение моделей на разных бенчмарках	Некорректно	Возможно (через общие вопросы или калибровку)
Информация о вопросах	Не даёт	Оценивает сложность и дискриминативность
Чувствительность к выбросам	Высокая	Устойчива (за счёт вероятностной модели)
Интерпретируемость	Интуитивно понятна	Требует понимания шкалы θ

Пример из черновика

Модель A: accuracy 75% на лёгких вопросах.
Модель B: accuracy 70% на сложных вопросах.
IRT может показать, что θ(B) > θ(A), так как B справляется с более сложными заданиями.

5. Оценка параметров IRT

Для оценки θ и β по наблюдаемым ответам используется метод максимального правдоподобия (MLE) или байесовские методы (EAP, MAP).

Пример на Python (1PL) с использованием библиотеки pyirt:

import pyirt
import numpy as np

# Матрица ответов: строки — модели, столбцы — вопросы
# 1 — правильный ответ, 0 — неправильный
responses = np.array([
    [1, 1, 0, 1, 0],
    [0, 1, 1, 0, 1],
    [1, 0, 0, 1, 1]
])

# Оценка параметров
irt = pyirt.IRT()
theta, beta = irt.fit(responses)

print("Способности моделей (θ):", theta)
print("Сложности вопросов (β):", beta)

Результат

θ: массив значений для каждой модели.
β: массив значений для каждого вопроса.

Важно Для корректной оценки требуется достаточное количество моделей и вопросов (обычно > 10). В LLM эвалюации часто используют несколько моделей (или чекпоинтов) и сотни вопросов.

6. Практические аспекты применения IRT к LLM

Сбор данных

Используйте существующие бенчмарки (MMLU, HellaSwag, GSM8K) с бинарными метками (правильно/неправильно).
Для генеративных задач можно использовать LLM-as-a-judge или автоматические метрики (ROUGE, BLEU) с порогом.

Калибровка бенчмарка

После оценки β можно удалить вопросы с экстремальной сложностью (β < -2 или β > 2) или низкой дискриминативностью (α < 0.5).
Это повышает качество оценки способности.

Сравнение моделей

Если модели тестировались на разных подмножествах, можно использовать common item equating — привязку через общие вопросы.

Ограничения

Локальная независимость: IRT предполагает, что ответы на разные вопросы независимы при фиксированной θ. Для LLM это может нарушаться (например, вопросы из одной темы).
Одномерность: предполагается, что способность — одна латентная переменная. В реальности LLM может иметь разные способности по разным доменам. Решение — многомерные IRT модели.
Бинарные ответы: для задач с частичной правильностью (например, суммаризация) требуется адаптация.

7. Связь IRT с другими подходами к эвалюации

Метод	Суть	Отличие от IRT
Elo rating	Рейтинг на основе парных сравнений	Не использует сложность вопросов, только результаты игр
Bradley-Terry	Вероятность победы одной модели над другой	Аналогично Elo, не моделирует вопросы
Classical Test Theory (CTT)	Сумма баллов, корреляция вопросов	Не разделяет способность и сложность
LLM-as-a-judge	Оценка ответов другой LLM	Субъективно, дорого, не даёт латентной способности

IRT дополняет эти методы, предоставляя интерпретируемую шкалу способности и объективную оценку сложности.

8. Пет-проект для закрепления

Задача Реализовать оценку качества двух LLM (например, GPT-3.5 и GPT-4) на подмножестве MMLU с помощью IRT и сравнить с сырой accuracy.

Инструменты

Python, pyirt или scikit-learn (для логистической регрессии как аппроксимации 1PL).
Датасет: MMLU (выберите 5 предметов, по 20 вопросов).
API OpenAI для получения ответов.

Шаги:

Собрать ответы двух моделей на 100 вопросах (бинарные метки).
Оценить θ для каждой модели с помощью pyirt.
Рассчитать сырую accuracy.
Построить график: характеристическая кривая задания (ICC) для нескольких вопросов.
Сделать вывод: какая модель лучше по IRT и по accuracy, объяснить расхождения.

Ожидаемый результат

Вы увидите, что accuracy может быть выше у модели с лёгкими вопросами, но θ может быть ниже.
Научитесь интерпретировать β и θ.
Получите практический навык работы с IRT.

9. Связь с другими вопросами

Вопрос	Тема
500	Метрики эвалюации LLM (accuracy, F1, BLEU)
502	LLM-as-a-judge и автоматическая оценка
504	Бенчмарки для LLM (MMLU, HellaSwag)
507	Elo-рейтинг для LLM
510	Оценка генеративных моделей (ROUGE, BLEU, Perplexity)
520	Анализ ошибок и bias в эвалюации

10. Навигация

Предыдущий: 505
Следующий: 507
Индекс: 00. Индекс разборов