Поиск

wikisynthetic evaluation
# synthetic evaluation ## Определение Метод автоматической генерации тестовых вопросов и эталонных ответов с помощью LLM для оценки RAG-систем или агентов…
wikievaluator-based evaluation
# evaluator-based evaluation ## Определение Подход к оценке LLM с использованием отдельной модели-оценщика (evaluator) вместо автоматических метрик. ## Где встречается - [[178…
wikiEval runner
…Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)|748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation…
wikiEvaluate
…Настроить RAGAS evaluation pipeline|276. Настроить RAGAS evaluation pipeline]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
wikieval пайплайн
# eval пайплайн ## Определение Конвейер автоматической оценки, запускаемый при pull request для генерации отчёта о качестве. ## Где встречается - [[Практика|Практика]] - [[800…
wikiRAG evaluation
# RAG evaluation ## Определение Оценка RAG (RAG evaluation) — процесс измерения качества поиска и генерации в RAG-системе, часто с использованием синтетических…
wikisynthetic eval datasets
# synthetic eval datasets ## Определение Синтетически созданные наборы данных для оценки производительности agentic workflows, имитирующие реальное взаимодействие пользователя с агентом. ## Где…
wikievaluation overfitting
…Как избежать evaluation overfitting (когда модель учится на тесте)|876. Как избежать evaluation overfitting (когда модель учится на тесте)]] - [[800…
wikiPath-level evaluation
# Path-level evaluation ## Определение Метод оценки работы агентов, при котором оценивается правильность маршрута (какие инструменты вызваны, в каком порядке, корректность…
wikieval set
…Реализовать synthetic eval для агента|271. Реализовать synthetic eval для агента]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiAgent-Eval
# Agent-Eval ## Определение Фреймворк от Microsoft для генерации eval-кейсов на основе спецификации агента. ## Где встречается - [[875. Как делать synthetic…
wikisynthetic eval collapse
# synthetic eval collapse ## Определение Деградация качества оценки модели, когда синтетические тестовые данные перестают отражать реальное распределение задач, что приводит к…
wikievaluation leakage
# evaluation leakage ## Определение Ситуация, когда eval-данные пересекаются с train-данными, что приводит к необъективной оценке модели. ## Где встречается - [[494…
wikiToken-level evaluation
# Token-level evaluation ## Определение Метод оценки качества генерации, сравнивающий сгенерированные токены с эталонными (exact match, BLEU, ROUGE, F1). Может быть…
wikiHybrid eval-set
# Hybrid eval-set ## Определение Оценочный набор, состоящий на 50% из синтетических и на 50% из реальных запросов, для предотвращения переобучения…
wikievaluator scores
# evaluator scores ## Определение Метрики, такие как faithfulness и answer relevance, используемые для оценки дрейфа модели и качества ответов. ## Где встречается…
wikisentence-level evaluation
# sentence-level evaluation ## Определение Подход к оценке качества генерации, при котором ответ разбивается на предложения, и каждое проверяется на соответствие…
wikilm-evaluation-harness
# lm-evaluation-harness ## Определение Инструмент EleutherAI для унифицированного запуска бенчмарков, сбора статистики и проверки contamination при оценке LLM. ## Где встречается…
wikiHuman evaluation
# Human evaluation ## Определение Оценка качества результатов модели с привлечением людей-экспертов. Рекомендуется для критичных кейсов и является эталоном для проверки…
wikiтестирование агентов
…Как проектировать golden dataset для agent evaluation|880. Как проектировать golden dataset для agent evaluation]] - [[Практика|Практика]] - [[800+ вопросов|800…
wikilm-eval-harness
# lm-eval-harness ## Определение Библиотека для стандартизированной оценки accuracy LLM на бенчмарках, таких как MMLU и HellaSwag. ## Где встречается - [[209…
wikiDynamic evals
# Dynamic evals ## Определение Тестовый набор, периодически обновляемый (ротация заданий) для снижения риска подстройки модели под конкретное оценочное множество. ## Где встречается…
wikicustom evaluators
# custom evaluators ## Определение Собственные функции оценки для специфических требований (fairness, drift detection, бизнес-метрики), когда встроенных инструментов недостаточно. ## Где встречается…
wikiExtrinsic evaluation
# Extrinsic evaluation ## Определение Оценка качества представлений (representations) на конкретной downstream-задаче с использованием метрик точности, задержки и стоимости. Противопоставляется внутренней…
wikimeta-evaluation
# meta-evaluation ## Определение Процесс оценки качества самих бенчмарков: проверка валидности, устойчивости к переобучению и насыщения, чтобы убедиться, что бенчмарк измеряет…
wikilm_evaluation_harness
# lm_evaluation_harness ## Определение Библиотека для унифицированного запуска бенчмарков (GSM8K, MATH, HumanEval) на различных моделях. ## Где встречается - [[210. Сравнить GPTQ…
answerКак вы детектируете data contamination в evaluation датасетах?
…train_ngrams.update(ngrams(t, n)) overlap = len(eval_ngrams & train_ngrams) return overlap / len(eval_ngrams) if eval_ngrams…
wikirubric-based evaluation
# rubric-based evaluation ## Определение Метод оценки ответов LLM по заранее определённым критериям (точность, полнота, стиль). Уменьшает bias по сравнению с…
wikievaluation report
# evaluation report ## Определение Итоговый документ с метриками и графиками, формируемый по результатам оценки для анализа и мониторинга. ## Где встречается - [[84…
wikired teaming evaluation
# red teaming evaluation ## Определение Оценка устойчивости LLM к атакам, проводимая в рамках red teaming. Обычно включает набор сценариев атак и…
wikiLLM evaluation
# LLM evaluation ## Определение Процесс оценки качества и поведения языковых моделей с использованием метрик и тестовых наборов. Включает методы вроде IRT…
wikiopen-ended task evaluation
# open-ended task evaluation ## Определение Оценка качества модели на свободных, неограниченных задачах вне стандартных бенчмарков, например, с помощью MT-Bench…
wikiRobustness Evaluation
# Robustness Evaluation ## Определение Процесс оценки устойчивости модели к аугментациям данных или adversarial атакам, часто включающий тестирование на специальных бенчмарках. ## Где…
wikiproduction evaluation
# production evaluation ## Определение Оценка модели на реальных данных из production для проверки её эффективности и качества в условиях эксплуатации. Позволяет…
wikiHuman evaluation costs
# Human evaluation costs ## Определение Затраты на оплату аннотаторов для проведения human evaluation. Является дорогим, но необходимым компонентом оценки faithfulness и…
wikiEvaluation
…Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)|748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation…
wikiMilestone evaluation
# Milestone evaluation ## Определение Метод оценки multi-step агентов, проверяющий не только финальный результат, но и достижение промежуточных подцелей (milestones). ## Где…
wikiLLM Eval Toolkit
# LLM Eval Toolkit ## Определение Набор из 8 метрик (Diversity, Reliability, Perturbation, Cascade, Consistency, Factual Grounding, Hallucination, Drift) для комплексной оценки…
wikiDSPy Evaluate
# DSPy Evaluate ## Определение Встроенная функция DSPy для оценки качества модели на заданной метрике. Используется для валидации оптимизаций и предотвращения переобучения…
wikiContext Coverage
…Как делать evaluation для long-context RAG (100k токенов)]] - [[276. Настроить RAGAS evaluation pipeline|276. Настроить RAGAS evaluation pipeline]] ## Навигация…
answerЧто такое meta-evaluation бенчмарков (оценка оценки)?
…Что такое meta-evaluation бенчмарков (оценка оценки)? ## Краткий тезис [[Вики/meta-evaluation\|Meta-evaluation]] ([[Вики/meta-evaluation\|оценка оценки]]) — это…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить RAGAS evaluation pipeline с автоматическим запуском при каждом PR
…Создайте `.github/workflows/eval.yml`: ```yaml name: RAGAS Evaluation on: pull_request: branches: [main] jobs: evaluate: runs-on: ubuntu-latest…
answerКакие инструменты для агентской эвалюации вы используете?
…Кастомные evaluator'ы (Custom Evaluators) Когда встроенных метрик недостаточно, пишут собственные [[Вики/Evaluator\|evaluator]]'ы. Типичные сценарии: ### 4.1 Drift…
wikistatistical power
…Что такое statistical power evaluation и как определять размер выборки|342. Что такое statistical power evaluation и как определять размер…
answerЧто такое synthetic eval collapse и как его предотвратить?
…Что такое synthetic eval collapse и как его предотвратить? ## Краткий тезис [[Вики/synthetic eval collapse\|Synthetic eval collapse]] — это [[Вики…
wikianswer_exact_match
…Как вы детектируете data contamination в evaluation датасетах|350. Как вы детектируете data contamination в evaluation датасетах]] - [[488. Что такое…
wikiHugging Face Evaluate
# Hugging Face Evaluate ## Определение Библиотека для оценки метрик моделей, упрощающая вычисление стандартных показателей качества. ## Где встречается - [[214. Реализовать FP8 инференс…
answerКак в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)?
…Evaluation и Drift в контексте AI-агентов **[[Вики/Evaluation\|Evaluation]] ([[Вики/Evaluation\|оценка]])** — процесс измерения качества работы агента на репрезентативном…
wikievaluator-based quality assessment
# evaluator-based quality assessment ## Определение Оценка качества LLM с помощью модели-оценщика, а не простых автоматических метрик, что повышает точность…
wikiMulti-needle
…Как делать evaluation для long-context RAG (100k токенов)|879. Как делать evaluation для long-context RAG (100k токенов)]] - [[800…