Поиск
- wikiMultidimensional IRT
# Multidimensional IRT ## Определение Расширение Item Response Theory для оценки нескольких латентных способностей модели (например, по доменам). Применяется для детальной LLM…
- wikiкалибровка модели IRT
# калибровка модели IRT ## Определение Процесс оценивания параметров вопросов (a, b, c) и способностей моделей (θ) с помощью MLE или байесовского…
- wikiItem Response Theory
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|171. Что такое IRT (Item Response Theory…
- wikiмногомерная IRT
# многомерная IRT ## Определение Расширение Item Response Theory, моделирующее несколько латентных способностей LLM (например, логику, знание фактов) для более точной оценки…
- wikipyirt
# pyirt ## Определение Python-реализация моделей Item Response Theory (IRT) для оценки качества вопросов и способностей. Используется в LLM-эвалюации для…
- answerЧто такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?
…Расширения — [[Вики/многомерная IRT\|многомерная IRT]] ([[Вики/многомерная IRT\|MIRT]]). - Необходимость большого количества данных: для точной калибровки нужно много моделей…
- wiki2PL
# 2PL ## Определение Модель IRT с параметрами сложности и дискриминативности. ## Где встречается - [[506. Что такое IRT (Item Response Theory) и как…
- wikiStan
…Используется для гибкой реализации Item Response Theory (IRT) при оценке моделей. ## Где встречается - [[171. Что такое IRT (Item Response Theory…
- wiki2PL модель
# 2PL модель ## Определение Модель IRT с параметрами дискриминации (a) и сложности (b); учитывает разную дискриминацию вопросов. ## Где встречается - [[171. Что…
- wikiEAP
# EAP ## Определение Байесовский метод оценки способности θ в Item Response Theory (IRT), применяемый для оценки знаний модели. ## Где встречается - [[171…
- wikiугадывание
# угадывание ## Определение Параметр IRT, нижняя асимптота кривой; вероятность правильного ответа при нулевой способности испытуемого, используется для коррекции оценки LLM. ## Где…
- answerЧто такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации? ## Краткий тезис **[[Вики/Item Response Theory\|IRT…
- wiki1PL модель
# 1PL модель ## Определение Модель IRT с одним параметром задания — сложностью (b); все вопросы имеют одинаковую дискриминацию. ## Где встречается - [[171. Что…
- wikiдискриминация задания
# дискриминация задания ## Определение Параметр IRT, характеризующий крутизну логистической кривой задания; показывает, насколько хорошо задание разделяет испытуемых с разным уровнем способности…
- wikiэквивалентность тестов
# эквивалентность тестов ## Определение Метод IRT, позволяющий сравнивать модели, даже если они тестировались на разных подмножествах вопросов, при условии общей калибровки…
- wiki3PL модель
# 3PL модель ## Определение Модель IRT с параметрами a, b и c (угадывание); применяется для заданий с возможностью угадывания (например, multiple…
- wikiEdSurvey
# EdSurvey ## Определение R-пакет для анализа образовательных данных с поддержкой Item Response Theory (IRT). Используется в LLM-эвалюации для оценки…
- wikiлокальная независимость
# локальная независимость ## Определение Предположение IRT, что ответы на разные вопросы независимы при фиксированной способности; для LLM может нарушаться при связанных…
- wikiBradley-Terry модель
# Bradley-Terry модель ## Определение Bradley-Terry модель — частный случай Item Response Theory (IRT), использующийся в Chatbot Arena для ранжирования LLM…
- wikiлатентная способность
# латентная способность ## Определение Непрерывная переменная в Item Response Theory (IRT), характеризующая уровень знаний или навыков испытуемого (например, качество LLM). Используется…
- wiki3PL
# 3PL ## Определение Модель Item Response Theory (IRT) с тремя параметрами: дискриминативность (a), сложность (b) и вероятность угадывания (c). Используется для…
- wikiсложность вопроса
# сложность вопроса ## Определение Параметр в Item Response Theory (IRT), характеризующий сложность вопроса: порог способности модели, при котором вероятность правильного ответа…
- wikiхарактеристическая кривая вопроса
# характеристическая кривая вопроса ## Определение График, показывающий вероятность правильного ответа как функцию способности θ, используемый в IRT для визуализации параметров задания…
- wikiMLE
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|171. Что такое IRT (Item Response Theory…
- wikiSigmoid
# Sigmoid ## Определение Сигмоида (логистическая функция) преобразует logit в вероятность [0,1]; используется в reward model, IRT и бинарной классификации. ## Где…
- wikiCommon item equating
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|506. Что такое IRT (Item Response Theory…
- wikiдолгосрочная память
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|171. Что такое IRT (Item Response Theory…
- wikiLMSys Chatbot Arena
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|171. Что такое IRT (Item Response Theory…
- wikiElo rating
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|506. Что такое IRT (Item Response Theory…
- wikiспособность модели
# способность модели ## Определение В контексте IRT — непрерывная латентная переменная, характеризующая уровень знаний или навыков модели, оцениваемая по ответам на вопросы…
- wikiAP
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|171. Что такое IRT (Item Response Theory…
- wikiсырая accuracy
…Отличается от скорректированных метрик, таких как IRT-оценки. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов|Индекс терминов…
- wikiLLM evaluation
…Включает методы вроде IRT для сравнения моделей на разных вопросах. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов…
- wikiBradley-Terry model
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|506. Что такое IRT (Item Response Theory…
- wikiMMLU
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|171. Что такое IRT (Item Response Theory…
- wikianswer_exact_match
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|506. Что такое IRT (Item Response Theory…
- wikiaccuracy
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|506. Что такое IRT (Item Response Theory…
- answerЧто такое LiveIdeaBench и для чего он нужен?
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации\|171]] | Как агент планирует последовательность действий? | | [[173…
- answerЧто такое GIM (Grounded Integration Measure) и чем он отличается от GPQA?
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации\|171]] | Как оценивать планирование в Agentic RAG…
- answerКак вы проверяете, что новая версия модели не сломала старые кейсы?
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации\|506]] | Как мониторить Agentic RAG в production…
- answerЧто такое calibration в контексте reward model для RLHF?
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации\|506]] | Что такое reward model и как…
- answerЧто такое «многошаговая когерентность» (coherence illusion) в cascading agent systems?
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации\|171]] | Tool use в агентных системах | | [[172…
- answerКак вы измеряете объяснимость (explainability) агентских решений?
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации\|171]] | Как вы оцениваете надёжность (reliability) агента…
- answerКак детектировать «объяснительно-решенческую декомпозицию»?
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации\|171]] | Архитектура Agentic RAG | | [[172. Что такое…
- answerКак вы оцениваете креативность LLM в production?
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации\|171]] | Какие метрики вы используете для оценки…
- indexИндекс разборов
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации\|171. Что такое IRT (Item Response Theory…
- indexОглавление
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации\|171. Что такое IRT (Item Response Theory…
- wikiИндекс терминов
…tool|multi_tool]] - [[Вики/MultiChainComparison|MultiChainComparison]] - [[Вики/Multidimensional IRT|Multidimensional IRT]] - [[Вики/Multilingual alignment|Multilingual alignment]] - [[Вики/multilingual attack|multilingual…
- question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?** > *Ответ:* IRT — метод из образовательной статистики для…
- indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING
…Explainability | Q 147 | | 170 | GIM vs GPQA | — (теория) | | 171 | IRT | Pet 236 | | 172 | LiveIdeaBench | — (теория) | | 173 | Креативность LLM | — (теория) | | 174…