Поиск

  • wikiMultidimensional IRT

    # Multidimensional IRT ## Определение Расширение Item Response Theory для оценки нескольких латентных способностей модели (например, по доменам). Применяется для детальной LLM…

  • wikiкалибровка модели IRT

    # калибровка модели IRT ## Определение Процесс оценивания параметров вопросов (a, b, c) и способностей моделей (θ) с помощью MLE или байесовского…

  • wikiItem Response Theory

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|171. Что такое IRT (Item Response Theory…

  • wikiмногомерная IRT

    # многомерная IRT ## Определение Расширение Item Response Theory, моделирующее несколько латентных способностей LLM (например, логику, знание фактов) для более точной оценки…

  • wikipyirt

    # pyirt ## Определение Python-реализация моделей Item Response Theory (IRT) для оценки качества вопросов и способностей. Используется в LLM-эвалюации для…

  • answerЧто такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?

    …Расширения — [[Вики/многомерная IRT\|многомерная IRT]] ([[Вики/многомерная IRT\|MIRT]]). - Необходимость большого количества данных: для точной калибровки нужно много моделей…

  • wiki2PL

    # 2PL ## Определение Модель IRT с параметрами сложности и дискриминативности. ## Где встречается - [[506. Что такое IRT (Item Response Theory) и как…

  • wikiStan

    …Используется для гибкой реализации Item Response Theory (IRT) при оценке моделей. ## Где встречается - [[171. Что такое IRT (Item Response Theory…

  • wiki2PL модель

    # 2PL модель ## Определение Модель IRT с параметрами дискриминации (a) и сложности (b); учитывает разную дискриминацию вопросов. ## Где встречается - [[171. Что…

  • wikiEAP

    # EAP ## Определение Байесовский метод оценки способности θ в Item Response Theory (IRT), применяемый для оценки знаний модели. ## Где встречается - [[171…

  • wikiугадывание

    # угадывание ## Определение Параметр IRT, нижняя асимптота кривой; вероятность правильного ответа при нулевой способности испытуемого, используется для коррекции оценки LLM. ## Где…

  • answerЧто такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации? ## Краткий тезис **[[Вики/Item Response Theory\|IRT

  • wiki1PL модель

    # 1PL модель ## Определение Модель IRT с одним параметром задания — сложностью (b); все вопросы имеют одинаковую дискриминацию. ## Где встречается - [[171. Что…

  • wikiдискриминация задания

    # дискриминация задания ## Определение Параметр IRT, характеризующий крутизну логистической кривой задания; показывает, насколько хорошо задание разделяет испытуемых с разным уровнем способности…

  • wikiэквивалентность тестов

    # эквивалентность тестов ## Определение Метод IRT, позволяющий сравнивать модели, даже если они тестировались на разных подмножествах вопросов, при условии общей калибровки…

  • wiki3PL модель

    # 3PL модель ## Определение Модель IRT с параметрами a, b и c (угадывание); применяется для заданий с возможностью угадывания (например, multiple…

  • wikiEdSurvey

    # EdSurvey ## Определение R-пакет для анализа образовательных данных с поддержкой Item Response Theory (IRT). Используется в LLM-эвалюации для оценки…

  • wikiлокальная независимость

    # локальная независимость ## Определение Предположение IRT, что ответы на разные вопросы независимы при фиксированной способности; для LLM может нарушаться при связанных…

  • wikiBradley-Terry модель

    # Bradley-Terry модель ## Определение Bradley-Terry модель — частный случай Item Response Theory (IRT), использующийся в Chatbot Arena для ранжирования LLM…

  • wikiлатентная способность

    # латентная способность ## Определение Непрерывная переменная в Item Response Theory (IRT), характеризующая уровень знаний или навыков испытуемого (например, качество LLM). Используется…

  • wiki3PL

    # 3PL ## Определение Модель Item Response Theory (IRT) с тремя параметрами: дискриминативность (a), сложность (b) и вероятность угадывания (c). Используется для…

  • wikiсложность вопроса

    # сложность вопроса ## Определение Параметр в Item Response Theory (IRT), характеризующий сложность вопроса: порог способности модели, при котором вероятность правильного ответа…

  • wikiхарактеристическая кривая вопроса

    # характеристическая кривая вопроса ## Определение График, показывающий вероятность правильного ответа как функцию способности θ, используемый в IRT для визуализации параметров задания…

  • wikiMLE

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|171. Что такое IRT (Item Response Theory…

  • wikiSigmoid

    # Sigmoid ## Определение Сигмоида (логистическая функция) преобразует logit в вероятность [0,1]; используется в reward model, IRT и бинарной классификации. ## Где…

  • wikiCommon item equating

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|506. Что такое IRT (Item Response Theory…

  • wikiдолгосрочная память

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|171. Что такое IRT (Item Response Theory…

  • wikiLMSys Chatbot Arena

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|171. Что такое IRT (Item Response Theory…

  • wikiElo rating

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|506. Что такое IRT (Item Response Theory…

  • wikiспособность модели

    # способность модели ## Определение В контексте IRT — непрерывная латентная переменная, характеризующая уровень знаний или навыков модели, оцениваемая по ответам на вопросы…

  • wikiAP

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|171. Что такое IRT (Item Response Theory…

  • wikiсырая accuracy

    …Отличается от скорректированных метрик, таких как IRT-оценки. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов|Индекс терминов…

  • wikiLLM evaluation

    …Включает методы вроде IRT для сравнения моделей на разных вопросах. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов…

  • wikiBradley-Terry model

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|506. Что такое IRT (Item Response Theory…

  • wikiMMLU

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|171. Что такое IRT (Item Response Theory…

  • wikianswer_exact_match

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|506. Что такое IRT (Item Response Theory…

  • wikiaccuracy

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации|506. Что такое IRT (Item Response Theory…

  • answerЧто такое LiveIdeaBench и для чего он нужен?

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации\|171]] | Как агент планирует последовательность действий? | | [[173…

  • answerЧто такое GIM (Grounded Integration Measure) и чем он отличается от GPQA?

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации\|171]] | Как оценивать планирование в Agentic RAG…

  • answerКак вы проверяете, что новая версия модели не сломала старые кейсы?

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации\|506]] | Как мониторить Agentic RAG в production…

  • answerЧто такое calibration в контексте reward model для RLHF?

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации\|506]] | Что такое reward model и как…

  • answerЧто такое «многошаговая когерентность» (coherence illusion) в cascading agent systems?

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации\|171]] | Tool use в агентных системах | | [[172…

  • answerКак вы измеряете объяснимость (explainability) агентских решений?

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации\|171]] | Как вы оцениваете надёжность (reliability) агента…

  • answerКак детектировать «объяснительно-решенческую декомпозицию»?

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации\|171]] | Архитектура Agentic RAG | | [[172. Что такое…

  • answerКак вы оцениваете креативность LLM в production?

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации\|171]] | Какие метрики вы используете для оценки…

  • indexИндекс разборов

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации\|171. Что такое IRT (Item Response Theory…

  • indexОглавление

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации\|171. Что такое IRT (Item Response Theory…

  • wikiИндекс терминов

    …tool|multi_tool]] - [[Вики/MultiChainComparison|MultiChainComparison]] - [[Вики/Multidimensional IRT|Multidimensional IRT]] - [[Вики/Multilingual alignment|Multilingual alignment]] - [[Вики/multilingual attack|multilingual…

  • question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?** > *Ответ:* IRT — метод из образовательной статистики для…

  • indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING

    …Explainability | Q 147 | | 170 | GIM vs GPQA | — (теория) | | 171 | IRT | Pet 236 | | 172 | LiveIdeaBench | — (теория) | | 173 | Креативность LLM | — (теория) | | 174…