中文翻译暂不可用,显示俄语原文。

Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?

Краткий тезис

IRT (Item Response Theory) — это статистическая модель из образовательного тестирования, которая оценивает латентную способность испытуемого и параметры заданий (сложность, дискриминация, угадывание) на основе паттернов ответов. В контексте LLM эвалюации IRT позволяет получать несмещённые оценки качества модели, учитывая, что разные вопросы имеют разную сложность и дискриминационную силу, а также исправляет искажения сырой accuracy из-за шума в данных. Это даёт возможность сравнивать модели, даже если они протестированы на разных наборах вопросов.


1. Термин: Item Response Theory (IRT)

IRT — это семейство вероятностных моделей, которые связывают наблюдаемые ответы испытуемого на задания (items) с его латентной (скрытой) способностью (θ). В отличие от классической теории тестов (CTT), где используется просто сумма правильных ответов, IRT моделирует вероятность правильного ответа как функцию от способности и параметров задания.

Основные компоненты IRT:

  • Способность (θ) — непрерывная переменная, характеризующая уровень знаний/навыков испытуемого (в нашем случае — качество LLM).
  • Параметры задания:
    • Сложность (b) — порог способности, при котором вероятность правильного ответа равна 0.5 (для 2PL модели).
    • Дискриминация (a) — крутизна логистической кривой; показывает, насколько хорошо задание разделяет испытуемых с разной способностью.
    • Угадывание (c) — нижняя асимптота; вероятность правильного ответа для испытуемого с очень низкой способностью (чистое угадывание).

IRT широко применяется в стандартизированных тестах (GRE, SAT), а теперь и в оценке LLM.


2. Проблема сырой accuracy в LLM эвалюации

Традиционная метрика accuracy (доля правильных ответов) имеет фундаментальные недостатки при оценке LLM:

  • Не учитывает сложность вопросов: модель может показывать 90% accuracy на лёгких вопросах и 50% на сложных, но средняя accuracy не отражает этот разрыв.
  • Зависимость от набора вопросов: разные бенчмарки имеют разный уровень сложности; сравнение моделей по accuracy на разных наборах некорректно.
  • Влияние шума в данных: некоторые вопросы могут быть плохо сформулированы или иметь неоднозначные ответы, что искажает accuracy.
  • Не позволяет оценить дискриминацию: accuracy не говорит, насколько хорошо вопрос различает сильные и слабые модели.

IRT решает эти проблемы, моделируя каждый вопрос отдельно и выводя единую шкалу способности.


3. Основные модели IRT

Существует несколько моделей IRT, различающихся количеством параметров задания:

МодельПараметрыФормула вероятности правильного ответаПрименение
1PL (Rasch model)b (сложность)P = 1 / (1 + exp(-(θ - b)))Простая модель, все вопросы имеют одинаковую дискриминацию
2PLa (дискриминация), b (сложность)P = 1 / (1 + exp(-a(θ - b)))Учитывает разную дискриминацию вопросов
3PLa, b, c (угадывание)P = c + (1 - c) / (1 + exp(-a(θ - b)))Для заданий с возможностью угадывания (например, multiple choice)

Для LLM эвалюации чаще всего используется 2PL или 3PL, так как вопросы бенчмарков имеют разную дискриминацию, а в multiple-choice есть вероятность угадывания.


4. Как IRT применяется к LLM эвалюации: пошаговый процесс

4.1 Сбор данных

Нужен датасет ответов нескольких LLM на набор вопросов (например, MMLU, HellaSwag, TruthfulQA). Для каждого вопроса известно, правильный ответ или нет (бинарная метка).

4.2 Калибровка модели IRT

С помощью методов максимального правдоподобия (MLE) или байесовского оценивания (EAP, MAP) оцениваются параметры вопросов (a, b, c) и способности моделей (θ). Популярные библиотеки: pyirt, irtoys, mirt (R).

Пример кода на Python с использованием pyirt:

from pyirt import irt

# data: список словарей [{'item_id': 'q1', 'subject_id': 'model_A', 'response': 1}, ...]
data = [
    {'item_id': 'q1', 'subject_id': 'model_A', 'response': 1},
    {'item_id': 'q1', 'subject_id': 'model_B', 'response': 0},
    {'item_id': 'q2', 'subject_id': 'model_A', 'response': 0},
    {'item_id': 'q2', 'subject_id': 'model_B', 'response': 1},
]

# Калибровка 2PL модели
result = irt(data, model='2PL')

# Извлечение параметров
item_params = result['items']  # {'q1': {'a': 1.2, 'b': 0.5}, ...}
ability_params = result['subjects']  # {'model_A': 0.8, 'model_B': -0.3}

4.3 Интерпретация результатов

  • θ модели — её оценённая способность на единой шкале (обычно N(0,1)). Модель с θ=1.0 на 1 стандартное отклонение выше среднего.
  • Параметры вопросов:
    • b > 0 — сложный вопрос (требует высокой способности).
    • a > 1 — высокая дискриминация (хорошо разделяет модели).
    • c > 0.25 — есть эффект угадывания (для 4-вариантного multiple-choice случайное угадывание даёт 0.25).

4.4 Сравнение моделей

IRT позволяет сравнивать модели, даже если они тестировались на разных подмножествах вопросов, при условии, что вопросы были откалиброваны на общей выборке. Это называется эквивалентность тестов (test equating).


5. Преимущества IRT перед сырой accuracy

АспектСырая accuracyIRT
Учёт сложности вопросовНетДа, через параметр b
Учёт дискриминацииНетДа, через параметр a
Устойчивость к шумуНизкаяВысокая (модель взвешивает вопросы)
Сравнение на разных наборахНекорректноВозможно (при общей калибровке)
Интерпретация шкалыПроцентыСтандартизованная шкала (θ)
Возможность выявить плохие вопросыНетДа (низкая a, экстремальная b)

6. Пример использования IRT в современных бенчмарках

  • MMLU (Massive Multitask Language Understanding): исследователи применяли IRT для анализа сложности вопросов и выявления тем, где модели ошибаются чаще.
  • Chatbot Arena|Chatbot Arena]] (LMSYS): использует модель Bradley-Terry (частный случай IRT) для ранжирования моделей на основе попарных предпочтений пользователей.
  • Big-Bench: в некоторых работах IRT применялась для калибровки заданий и оценки способности моделей к рассуждению.

7. Ограничения и вызовы IRT для LLM

  • Предположение о локальной независимости: IRT предполагает, что ответы на разные вопросы независимы при фиксированной способности. Для LLM это может нарушаться, если вопросы связаны (например, цепочка рассуждений).
  • Одномерность: базовая IRT предполагает одну латентную способность. LLM же имеют множество навыков (логика, знание фактов, креативность). Расширения — многомерная IRT (MIRT).
  • Необходимость большого количества данных: для точной калибровки нужно много моделей и вопросов (обычно >100 моделей, >1000 вопросов).
  • Динамика моделей: LLM быстро обновляются, и параметры вопросов могут меняться со временем (например, из-за утечки данных в обучение).

8. Инструменты и библиотеки для IRT

ИнструментЯзыкОписание
pyirtPythonПростая реализация 1PL/2PL/3PL, подходит для экспериментов
mirtRМощный пакет для многомерной IRT, CFA
ltmRКлассические модели IRT
StanProb. programmingГибкая байесовская реализация IRT
EdSurveyRАнализ образовательных данных с IRT

9. Пет-проект для закрепления

Задача: Оценить качество трёх LLM (например, GPT-3.5, GPT-4, Llama-2-7b) на 200 вопросах из MMLU с помощью IRT и сравнить с сырой accuracy.

Инструменты: Python, pyirt, pandas, numpy, matplotlib.

Шаги:

  1. Собрать ответы моделей на 200 вопросов MMLU (можно использовать API или готовые датасеты).
  2. Подготовить данные в формате [{'item_id': ..., 'subject_id': ..., 'response': 0/1}].
  3. Откалибровать 2PL модель с помощью pyirt.
  4. Извлечь θ для каждой модели и параметры вопросов.
  5. Построить график характеристических кривых вопросов (ICC) для нескольких вопросов с разной сложностью.
  6. Сравнить ранжирование моделей по accuracy и по θ. Обсудить расхождения.

Ожидаемый результат: Вы увидите, что IRT корректирует оценку: модель, показывающая высокую accuracy за счёт лёгких вопросов, получит более низкую θ, чем модель, которая хорошо отвечает на сложные вопросы.


10. Связь с другими вопросами

ВопросТема
170Что такое эвалюация LLM и какие бывают виды?
172Как проводить человеческую эвалюацию LLM?
173Какие автоматические метрики для эвалюации LLM вы знаете?
174Какие бенчмарки для LLM вы знаете?
175Что такое калибровка модели и как её оценивать?
176Как оценивать bias в LLM?

11. Навигация


Навигация