English translation is not available yet. Showing Russian content.
Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?
Краткий тезис
IRT (Item Response Theory) — это статистическая модель из образовательного тестирования, которая оценивает латентную способность модели (θ) и сложность вопроса (β) на основе вероятности правильного ответа. В контексте LLM эвалюации IRT позволяет получать несмещённые оценки качества модели, устраняя искажения сырой accuracy, вызванные разной сложностью вопросов в бенчмарках. Это даёт возможность сравнивать модели, даже если они тестировались на разных наборах заданий, и выявлять перекосы в данных.
1. Термин: Item Response Theory (IRT)
IRT — это семейство моделей, которые связывают наблюдаемый ответ испытуемого (в нашем случае — LLM) на задание (item) с ненаблюдаемой (латентной) характеристикой — способностью (θ). В отличие от классической теории тестов (CTT), где используется сырой балл (сумма правильных ответов), IRT моделирует каждый ответ отдельно, учитывая параметры задания.
Ключевые компоненты IRT
- θ (theta) — латентная способность модели (непрерывная переменная, обычно от -3 до +3).
- β (beta) — сложность задания (item difficulty): чем выше β, тем сложнее задание.
- α (alpha) — дискриминативность задания (item discrimination): насколько резко задание разделяет модели с разной способностью.
- γ (gamma) — параметр угадывания (guessing parameter) для заданий с выбором ответа.
Основные модели IRT
В LLM эвалюации чаще всего используется 1PL или 2PL, так как угадывание для генеративных моделей нехарактерно.
2. Формула вероятности правильного ответа (1PL)
Для модели 1PL вероятность того, что модель с способностью θ даст правильный ответ на задание сложности β, задаётся логистической функцией:
P(θ) = 1 / (1 + exp(-(θ - β)))
Интерпретация
- Если θ = β, то P = 0.5 (модель отвечает случайно).
- Если θ > β, то P > 0.5 (модель справляется).
- Если θ < β, то P < 0.5 (модель не справляется).
Пример:
- Задание сложностью β = 0.5.
- Модель A с θ = 1.0: P = 1/(1+exp(-(1.0-0.5))) = 1/(1+exp(-0.5)) ≈ 0.62.
- Модель B с θ = -0.5: P = 1/(1+exp(-(-0.5-0.5))) = 1/(1+exp(1.0)) ≈ 0.27.
Таким образом, модель A имеет более высокую вероятность правильного ответа, что согласуется с её большей способностью.
3. Как IRT применяется к LLM эвалюации
Традиционная эвалюация LLM использует сырую accuracy (доля правильных ответов на бенчмарке). Проблема: accuracy зависит от сложности вопросов. Если модель A тестировалась на лёгких вопросах, а модель B — на сложных, accuracy может ввести в заблуждение.
IRT решает эту проблему
- Оценка способности модели (θ) — непрерывная метрика, инвариантная к набору вопросов.
- Оценка сложности вопросов (β) — позволяет калибровать бенчмарк и выявлять слишком лёгкие или слишком сложные задания.
- Сравнение моделей — даже если модели тестировались на разных подмножествах вопросов, можно оценить их θ и сравнить.
Процесс применения
- Собирается матрица ответов: строки — модели (или одна модель на разных этапах), столбцы — вопросы, значения — 1 (правильно) / 0 (неправильно).
- Оцениваются параметры θ для каждой модели и β для каждого вопроса (например, методом максимального правдоподобия или EM-алгоритмом).
- Полученные θ используются как итоговая метрика качества.
4. Преимущества IRT перед сырой accuracy
| Аспект | Сырая accuracy | IRT (θ) |
|---|---|---|
| Зависимость от сложности вопросов | Сильная | Отсутствует (θ инвариантна) |
| Сравнение моделей на разных бенчмарках | Некорректно | Возможно (через общие вопросы или калибровку) |
| Информация о вопросах | Не даёт | Оценивает сложность и дискриминативность |
| Чувствительность к выбросам | Высокая | Устойчива (за счёт вероятностной модели) |
| Интерпретируемость | Интуитивно понятна | Требует понимания шкалы θ |
Пример из черновика
- Модель A: accuracy 75% на лёгких вопросах.
- Модель B: accuracy 70% на сложных вопросах.
- IRT может показать, что θ(B) > θ(A), так как B справляется с более сложными заданиями.
5. Оценка параметров IRT
Для оценки θ и β по наблюдаемым ответам используется метод максимального правдоподобия (MLE) или байесовские методы (EAP, MAP).
Пример на Python (1PL) с использованием библиотеки pyirt:
import pyirt
import numpy as np
# Матрица ответов: строки — модели, столбцы — вопросы
# 1 — правильный ответ, 0 — неправильный
responses = np.array([
[1, 1, 0, 1, 0],
[0, 1, 1, 0, 1],
[1, 0, 0, 1, 1]
])
# Оценка параметров
irt = pyirt.IRT()
theta, beta = irt.fit(responses)
print("Способности моделей (θ):", theta)
print("Сложности вопросов (β):", beta)
Результат
- θ: массив значений для каждой модели.
- β: массив значений для каждого вопроса.
Важно Для корректной оценки требуется достаточное количество моделей и вопросов (обычно > 10). В LLM эвалюации часто используют несколько моделей (или чекпоинтов) и сотни вопросов.
6. Практические аспекты применения IRT к LLM
Сбор данных
- Используйте существующие бенчмарки (MMLU, HellaSwag, GSM8K) с бинарными метками (правильно/неправильно).
- Для генеративных задач можно использовать LLM-as-a-judge или автоматические метрики (ROUGE, BLEU) с порогом.
Калибровка бенчмарка
- После оценки β можно удалить вопросы с экстремальной сложностью (β < -2 или β > 2) или низкой дискриминативностью (α < 0.5).
- Это повышает качество оценки способности.
Сравнение моделей
- Если модели тестировались на разных подмножествах, можно использовать common item equating — привязку через общие вопросы.
Ограничения
- Локальная независимость: IRT предполагает, что ответы на разные вопросы независимы при фиксированной θ. Для LLM это может нарушаться (например, вопросы из одной темы).
- Одномерность: предполагается, что способность — одна латентная переменная. В реальности LLM может иметь разные способности по разным доменам. Решение — многомерные IRT модели.
- Бинарные ответы: для задач с частичной правильностью (например, суммаризация) требуется адаптация.
7. Связь IRT с другими подходами к эвалюации
| Метод | Суть | Отличие от IRT |
|---|---|---|
| Elo rating | Рейтинг на основе парных сравнений | Не использует сложность вопросов, только результаты игр |
| Bradley-Terry | Вероятность победы одной модели над другой | Аналогично Elo, не моделирует вопросы |
| Classical Test Theory (CTT) | Сумма баллов, корреляция вопросов | Не разделяет способность и сложность |
| LLM-as-a-judge | Оценка ответов другой LLM | Субъективно, дорого, не даёт латентной способности |
IRT дополняет эти методы, предоставляя интерпретируемую шкалу способности и объективную оценку сложности.
8. Пет-проект для закрепления
Задача Реализовать оценку качества двух LLM (например, GPT-3.5 и GPT-4) на подмножестве MMLU с помощью IRT и сравнить с сырой accuracy.
Инструменты
- Python, pyirt или scikit-learn (для логистической регрессии как аппроксимации 1PL).
- Датасет: MMLU (выберите 5 предметов, по 20 вопросов).
- API OpenAI для получения ответов.
Шаги:
- Собрать ответы двух моделей на 100 вопросах (бинарные метки).
- Оценить θ для каждой модели с помощью pyirt.
- Рассчитать сырую accuracy.
- Построить график: характеристическая кривая задания (ICC) для нескольких вопросов.
- Сделать вывод: какая модель лучше по IRT и по accuracy, объяснить расхождения.
Ожидаемый результат
- Вы увидите, что accuracy может быть выше у модели с лёгкими вопросами, но θ может быть ниже.
- Научитесь интерпретировать β и θ.
- Получите практический навык работы с IRT.
9. Связь с другими вопросами
| Вопрос | Тема |
|---|---|
| 500 | Метрики эвалюации LLM (accuracy, F1, BLEU) |
| 502 | LLM-as-a-judge и автоматическая оценка |
| 504 | Бенчмарки для LLM (MMLU, HellaSwag) |
| 507 | Elo-рейтинг для LLM |
| 510 | Оценка генеративных моделей (ROUGE, BLEU, Perplexity) |
| 520 | Анализ ошибок и bias в эвалюации |
10. Навигация
- Предыдущий: 505
- Следующий: 507
- Индекс: 00. Индекс разборов
Навигация
- Предыдущий: 505
- Следующий: 507
- Индекс: 00. Индекс разборов