Поиск

wikiRAG evaluation
# RAG evaluation ## Определение Оценка RAG (RAG evaluation) — процесс измерения качества поиска и генерации в RAG-системе, часто с использованием синтетических…
wikievaluation overfitting
…Как избежать evaluation overfitting (когда модель учится на тесте)|876. Как избежать evaluation overfitting (когда модель учится на тесте)]] - [[800…
wikiPath-level evaluation
# Path-level evaluation ## Определение Метод оценки работы агентов, при котором оценивается правильность маршрута (какие инструменты вызваны, в каком порядке, корректность…
wikisentence-level evaluation
# sentence-level evaluation ## Определение Подход к оценке качества генерации, при котором ответ разбивается на предложения, и каждое проверяется на соответствие…
wikilm-evaluation-harness
# lm-evaluation-harness ## Определение Инструмент EleutherAI для унифицированного запуска бенчмарков, сбора статистики и проверки contamination при оценке LLM. ## Где встречается…
wikiToken-level evaluation
# Token-level evaluation ## Определение Метод оценки качества генерации, сравнивающий сгенерированные токены с эталонными (exact match, BLEU, ROUGE, F1). Может быть…
wikiExtrinsic evaluation
# Extrinsic evaluation ## Определение Оценка качества представлений (representations) на конкретной downstream-задаче с использованием метрик точности, задержки и стоимости. Противопоставляется внутренней…
wikiHuman evaluation
# Human evaluation ## Определение Оценка качества результатов модели с привлечением людей-экспертов. Рекомендуется для критичных кейсов и является эталоном для проверки…
wikimeta-evaluation
# meta-evaluation ## Определение Процесс оценки качества самих бенчмарков: проверка валидности, устойчивости к переобучению и насыщения, чтобы убедиться, что бенчмарк измеряет…
wikiтестирование агентов
…Как проектировать golden dataset для agent evaluation|880. Как проектировать golden dataset для agent evaluation]] - [[Практика|Практика]] - [[800+ вопросов|800…
wikirubric-based evaluation
# rubric-based evaluation ## Определение Метод оценки ответов LLM по заранее определённым критериям (точность, полнота, стиль). Уменьшает bias по сравнению с…
wikievaluation report
# evaluation report ## Определение Итоговый документ с метриками и графиками, формируемый по результатам оценки для анализа и мониторинга. ## Где встречается - [[84…
wikired teaming evaluation
# red teaming evaluation ## Определение Оценка устойчивости LLM к атакам, проводимая в рамках red teaming. Обычно включает набор сценариев атак и…
wikiLLM evaluation
# LLM evaluation ## Определение Процесс оценки качества и поведения языковых моделей с использованием метрик и тестовых наборов. Включает методы вроде IRT…
wikiopen-ended task evaluation
# open-ended task evaluation ## Определение Оценка качества модели на свободных, неограниченных задачах вне стандартных бенчмарков, например, с помощью MT-Bench…
wikiRobustness Evaluation
# Robustness Evaluation ## Определение Процесс оценки устойчивости модели к аугментациям данных или adversarial атакам, часто включающий тестирование на специальных бенчмарках. ## Где…
wikiproduction evaluation
# production evaluation ## Определение Оценка модели на реальных данных из production для проверки её эффективности и качества в условиях эксплуатации. Позволяет…
wikiHuman evaluation costs
# Human evaluation costs ## Определение Затраты на оплату аннотаторов для проведения human evaluation. Является дорогим, но необходимым компонентом оценки faithfulness и…
wikiEvaluation
…Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)|748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation…
wikiMilestone evaluation
# Milestone evaluation ## Определение Метод оценки multi-step агентов, проверяющий не только финальный результат, но и достижение промежуточных подцелей (milestones). ## Где…
wikilm_evaluation_harness
# lm_evaluation_harness ## Определение Библиотека для унифицированного запуска бенчмарков (GSM8K, MATH, HumanEval) на различных моделях. ## Где встречается - [[210. Сравнить GPTQ…
wikiContext Coverage
…Как делать evaluation для long-context RAG (100k токенов)]] - [[276. Настроить RAGAS evaluation pipeline|276. Настроить RAGAS evaluation pipeline]] ## Навигация…
answerЧто такое meta-evaluation бенчмарков (оценка оценки)?
…Что такое meta-evaluation бенчмарков (оценка оценки)? ## Краткий тезис [[Вики/meta-evaluation\|Meta-evaluation]] ([[Вики/meta-evaluation\|оценка оценки]]) — это…
answerКак вы детектируете data contamination в evaluation датасетах?
…одну, которая точно не видела [[Вики/Evaluation\|evaluation]] (например, меньшую версию), и целевую. - Разница в перплексии между моделями на evaluation…
wikistatistical power
…Что такое statistical power evaluation и как определять размер выборки|342. Что такое statistical power evaluation и как определять размер…
wikisynthetic evaluation
# synthetic evaluation ## Определение Метод автоматической генерации тестовых вопросов и эталонных ответов с помощью LLM для оценки RAG-систем или агентов…
wikianswer_exact_match
…Как вы детектируете data contamination в evaluation датасетах|350. Как вы детектируете data contamination в evaluation датасетах]] - [[488. Что такое…
wikieval пайплайн
# eval пайплайн ## Определение Конвейер автоматической оценки, запускаемый при pull request для генерации отчёта о качестве. ## Где встречается - [[Практика|Практика]] - [[800…
wikiMulti-needle
…Как делать evaluation для long-context RAG (100k токенов)|879. Как делать evaluation для long-context RAG (100k токенов)]] - [[800…
wikiIntrinsic evaluation
# Intrinsic evaluation ## Определение Оценка качества эмбеддингов на стандартных бенчмарках без привязки к конкретной задаче. ## Где встречается - [[192. Как вы оцениваете…
wikiLLM evaluation metrics
# LLM evaluation metrics ## Определение Количественные показатели для оценки качества ответов LLM, такие как точность, релевантность, уверенность. Используются для управления привилегиями…
wikipreference simulation
# preference simulation ## Определение Метод генерации синтетических человеческих предпочтений с заданными вероятностями, используемый для pairwise evaluation моделей без привлечения реальных annotators…
wikiQA-based evaluation
# QA-based evaluation ## Определение Метод оценки faithfulness (фактологической точности) ответа: из ответа генерируются вопросы, затем проверяется, можно ли ответить на…
wikipointwise
…Настроить pairwise evaluation для моделей|284. Настроить pairwise evaluation для моделей]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiadversarial filtering
# adversarial filtering ## Определение Создание контрпримеров для проверки, использует ли модель shortcuts вместо истинного конструкта, применяется в meta-evaluation. ## Где встречается…
wikiEvaluation API
# Evaluation API ## Определение Интерфейс для удаленного вызова бенчмарка без раскрытия данных, обеспечивающий безопасную и контролируемую оценку. ## Где встречается - [[689. Как…
wikiPolicy evaluation
# Policy evaluation ## Определение Процесс проверки tool call'а на соответствие заранее определённым правилам в AdmissionController. ## Где встречается - [[747. Что такое…
wikievaluation leakage
# evaluation leakage ## Определение Ситуация, когда eval-данные пересекаются с train-данными, что приводит к необъективной оценке модели. ## Где встречается - [[494…
wikiGolden Holdout
# Golden Holdout ## Определение Фиксированный тестовый набор, применяемый только для финальной оценки, чтобы избежать evaluation overfitting. ## Где встречается - [[876. Как избежать…
wikiListwise evaluation
# Listwise evaluation ## Определение Метод оценки качества ранжирования, при котором все K релевантных ответов на запрос ранжируются вместе; используется метриками NDCG…
wikionline evaluation
# online evaluation ## Определение Оценка модели в production на реальном пользовательском трафике, включающая A/B-тесты и бизнес-метрики. ## Где встречается…
wikipwr
…Используется в evaluation LLM. ## Где встречается - [[342. Что такое statistical power evaluation и как определять размер выборки|342. Что такое…
wikilazy evaluation
# lazy evaluation ## Определение Механизм отложенных вычислений, при котором операции (например, в Dask) выполняются только после явного вызова .compute(). Позволяет оптимизировать…
wikievaluator-based evaluation
# evaluator-based evaluation ## Определение Подход к оценке LLM с использованием отдельной модели-оценщика (evaluator) вместо автоматических метрик. ## Где встречается - [[178…
wikipeeking
…Что такое statistical power evaluation и как определять размер выборки для AB теста|491. Что такое statistical power evaluation и…
wikiLM Contamination
…Как вы детектируете data contamination в evaluation датасетах|350. Как вы детектируете data contamination в evaluation датасетах]] ## Навигация - [[00. Индекс…
wikiRLHF Evaluation Suite
# RLHF Evaluation Suite ## Определение Комплекс метрик от OpenAI для оценки качества выравнивания (alignment) моделей, обученных с помощью RLHF. ## Где встречается…
wikiEval runner
…Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)|748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation…
wikiNested cross-validation
…внешний для оценки обобщающей способности, внутренний для настройки гиперпараметров, предотвращающий evaluation overfitting. ## Где встречается - [[876. Как избежать evaluation overfitting (когда…
wikiMatryoshka evaluation
# Matryoshka evaluation ## Определение Метод оценки с вложенными задачами, который моделирует каскадное рассуждение и распространение ошибок для проверки способности к сложным…