Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?

Краткий тезис

IRT (Item Response Theory) — это статистическая модель из образовательного тестирования, которая оценивает латентную способность модели (θ) и сложность вопроса (β) на основе вероятности правильного ответа. В контексте LLM эвалюации IRT позволяет получать несмещённые оценки качества модели, устраняя искажения сырой accuracy, вызванные разной сложностью вопросов в бенчмарках. Это даёт возможность сравнивать модели, даже если они тестировались на разных наборах заданий, и выявлять перекосы в данных.


1. Термин: Item Response Theory (IRT)

IRT — это семейство моделей, которые связывают наблюдаемый ответ испытуемого (в нашем случае — LLM) на задание (item) с ненаблюдаемой (латентной) характеристикой — способностью (θ). В отличие от классической теории тестов (CTT), где используется сырой балл (сумма правильных ответов), IRT моделирует каждый ответ отдельно, учитывая параметры задания.

Ключевые компоненты IRT

  • θ (theta)латентная способность модели (непрерывная переменная, обычно от -3 до +3).
  • β (beta) — сложность задания (item difficulty): чем выше β, тем сложнее задание.
  • α (alpha) — дискриминативность задания (item discrimination): насколько резко задание разделяет модели с разной способностью.
  • γ (gamma) — параметр угадывания (guessing parameter) для заданий с выбором ответа.

Основные модели IRT

  • 1PL (модель|Rasch model): только β, α фиксировано = 1, γ = 0.
  • 2PL: α и β, γ = 0.
  • 3PL: α, β, γ.

В LLM эвалюации чаще всего используется 1PL или 2PL, так как угадывание для генеративных моделей нехарактерно.


2. Формула вероятности правильного ответа (1PL)

Для модели 1PL вероятность того, что модель с способностью θ даст правильный ответ на задание сложности β, задаётся логистической функцией:

P(θ) = 1 / (1 + exp(-(θ - β)))

Интерпретация

  • Если θ = β, то P = 0.5 (модель отвечает случайно).
  • Если θ > β, то P > 0.5 (модель справляется).
  • Если θ < β, то P < 0.5 (модель не справляется).

Пример:

  • Задание сложностью β = 0.5.
  • Модель A с θ = 1.0: P = 1/(1+exp(-(1.0-0.5))) = 1/(1+exp(-0.5)) ≈ 0.62.
  • Модель B с θ = -0.5: P = 1/(1+exp(-(-0.5-0.5))) = 1/(1+exp(1.0)) ≈ 0.27.

Таким образом, модель A имеет более высокую вероятность правильного ответа, что согласуется с её большей способностью.


3. Как IRT применяется к LLM эвалюации

Традиционная эвалюация LLM использует сырую accuracy (доля правильных ответов на бенчмарке). Проблема: accuracy зависит от сложности вопросов. Если модель A тестировалась на лёгких вопросах, а модель B — на сложных, accuracy может ввести в заблуждение.

IRT решает эту проблему

  1. Оценка способности модели (θ) — непрерывная метрика, инвариантная к набору вопросов.
  2. Оценка сложности вопросов (β) — позволяет калибровать бенчмарк и выявлять слишком лёгкие или слишком сложные задания.
  3. Сравнение моделей — даже если модели тестировались на разных подмножествах вопросов, можно оценить их θ и сравнить.

Процесс применения

  • Собирается матрица ответов: строки — модели (или одна модель на разных этапах), столбцы — вопросы, значения — 1 (правильно) / 0 (неправильно).
  • Оцениваются параметры θ для каждой модели и β для каждого вопроса (например, методом максимального правдоподобия или EM-алгоритмом).
  • Полученные θ используются как итоговая метрика качества.

4. Преимущества IRT перед сырой accuracy

АспектСырая accuracyIRT (θ)
Зависимость от сложности вопросовСильнаяОтсутствует (θ инвариантна)
Сравнение моделей на разных бенчмаркахНекорректноВозможно (через общие вопросы или калибровку)
Информация о вопросахНе даётОценивает сложность и дискриминативность
Чувствительность к выбросамВысокаяУстойчива (за счёт вероятностной модели)
ИнтерпретируемостьИнтуитивно понятнаТребует понимания шкалы θ

Пример из черновика

  • Модель A: accuracy 75% на лёгких вопросах.
  • Модель B: accuracy 70% на сложных вопросах.
  • IRT может показать, что θ(B) > θ(A), так как B справляется с более сложными заданиями.

5. Оценка параметров IRT

Для оценки θ и β по наблюдаемым ответам используется метод максимального правдоподобия (MLE) или байесовские методы (EAP, MAP).

Пример на Python (1PL) с использованием библиотеки pyirt:

import pyirt
import numpy as np

# Матрица ответов: строки — модели, столбцы — вопросы
# 1 — правильный ответ, 0 — неправильный
responses = np.array([
    [1, 1, 0, 1, 0],
    [0, 1, 1, 0, 1],
    [1, 0, 0, 1, 1]
])

# Оценка параметров
irt = pyirt.IRT()
theta, beta = irt.fit(responses)

print("Способности моделей (θ):", theta)
print("Сложности вопросов (β):", beta)

Результат

  • θ: массив значений для каждой модели.
  • β: массив значений для каждого вопроса.

Важно Для корректной оценки требуется достаточное количество моделей и вопросов (обычно > 10). В LLM эвалюации часто используют несколько моделей (или чекпоинтов) и сотни вопросов.


6. Практические аспекты применения IRT к LLM

Сбор данных

  • Используйте существующие бенчмарки (MMLU, HellaSwag, GSM8K) с бинарными метками (правильно/неправильно).
  • Для генеративных задач можно использовать LLM-as-a-judge или автоматические метрики (ROUGE, BLEU) с порогом.

Калибровка бенчмарка

  • После оценки β можно удалить вопросы с экстремальной сложностью (β < -2 или β > 2) или низкой дискриминативностью (α < 0.5).
  • Это повышает качество оценки способности.

Сравнение моделей

  • Если модели тестировались на разных подмножествах, можно использовать common item equating — привязку через общие вопросы.

Ограничения

  • Локальная независимость: IRT предполагает, что ответы на разные вопросы независимы при фиксированной θ. Для LLM это может нарушаться (например, вопросы из одной темы).
  • Одномерность: предполагается, что способность — одна латентная переменная. В реальности LLM может иметь разные способности по разным доменам. Решение — многомерные IRT модели.
  • Бинарные ответы: для задач с частичной правильностью (например, суммаризация) требуется адаптация.

7. Связь IRT с другими подходами к эвалюации

МетодСутьОтличие от IRT
Elo ratingРейтинг на основе парных сравненийНе использует сложность вопросов, только результаты игр
Bradley-TerryВероятность победы одной модели над другойАналогично Elo, не моделирует вопросы
Classical Test Theory (CTT)Сумма баллов, корреляция вопросовНе разделяет способность и сложность
LLM-as-a-judgeОценка ответов другой LLMСубъективно, дорого, не даёт латентной способности

IRT дополняет эти методы, предоставляя интерпретируемую шкалу способности и объективную оценку сложности.


8. Пет-проект для закрепления

Задача Реализовать оценку качества двух LLM (например, GPT-3.5 и GPT-4) на подмножестве MMLU с помощью IRT и сравнить с сырой accuracy.

Инструменты

  • Python, pyirt или scikit-learn (для логистической регрессии как аппроксимации 1PL).
  • Датасет: MMLU (выберите 5 предметов, по 20 вопросов).
  • API OpenAI для получения ответов.

Шаги:

  1. Собрать ответы двух моделей на 100 вопросах (бинарные метки).
  2. Оценить θ для каждой модели с помощью pyirt.
  3. Рассчитать сырую accuracy.
  4. Построить график: характеристическая кривая задания (ICC) для нескольких вопросов.
  5. Сделать вывод: какая модель лучше по IRT и по accuracy, объяснить расхождения.

Ожидаемый результат

  • Вы увидите, что accuracy может быть выше у модели с лёгкими вопросами, но θ может быть ниже.
  • Научитесь интерпретировать β и θ.
  • Получите практический навык работы с IRT.

9. Связь с другими вопросами

ВопросТема
500Метрики эвалюации LLM (accuracy, F1, BLEU)
502LLM-as-a-judge и автоматическая оценка
504Бенчмарки для LLM (MMLU, HellaSwag)
507Elo-рейтинг для LLM
510Оценка генеративных моделей (ROUGE, BLEU, Perplexity)
520Анализ ошибок и bias в эвалюации

10. Навигация


Навигация