Поиск

  • wikisynthetic evaluation

    # synthetic evaluation ## Определение Метод автоматической генерации тестовых вопросов и эталонных ответов с помощью LLM для оценки RAG-систем или агентов…

  • wikievaluator-based evaluation

    # evaluator-based evaluation ## Определение Подход к оценке LLM с использованием отдельной модели-оценщика (evaluator) вместо автоматических метрик. ## Где встречается - [[178…

  • wikiEval runner

    …Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)|748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation

  • wikiEvaluate

    …Настроить RAGAS evaluation pipeline|276. Настроить RAGAS evaluation pipeline]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikieval пайплайн

    # eval пайплайн ## Определение Конвейер автоматической оценки, запускаемый при pull request для генерации отчёта о качестве. ## Где встречается - [[Практика|Практика]] - [[800…

  • wikiRAG evaluation

    # RAG evaluation ## Определение Оценка RAG (RAG evaluation) — процесс измерения качества поиска и генерации в RAG-системе, часто с использованием синтетических…

  • wikisynthetic eval datasets

    # synthetic eval datasets ## Определение Синтетически созданные наборы данных для оценки производительности agentic workflows, имитирующие реальное взаимодействие пользователя с агентом. ## Где…

  • wikievaluation overfitting

    …Как избежать evaluation overfitting (когда модель учится на тесте)|876. Как избежать evaluation overfitting (когда модель учится на тесте)]] - [[800…

  • wikiPath-level evaluation

    # Path-level evaluation ## Определение Метод оценки работы агентов, при котором оценивается правильность маршрута (какие инструменты вызваны, в каком порядке, корректность…

  • wikieval set

    …Реализовать synthetic eval для агента|271. Реализовать synthetic eval для агента]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiAgent-Eval

    # Agent-Eval ## Определение Фреймворк от Microsoft для генерации eval-кейсов на основе спецификации агента. ## Где встречается - [[875. Как делать synthetic…

  • wikisynthetic eval collapse

    # synthetic eval collapse ## Определение Деградация качества оценки модели, когда синтетические тестовые данные перестают отражать реальное распределение задач, что приводит к…

  • wikievaluation leakage

    # evaluation leakage ## Определение Ситуация, когда eval-данные пересекаются с train-данными, что приводит к необъективной оценке модели. ## Где встречается - [[494…

  • wikiToken-level evaluation

    # Token-level evaluation ## Определение Метод оценки качества генерации, сравнивающий сгенерированные токены с эталонными (exact match, BLEU, ROUGE, F1). Может быть…

  • wikiHybrid eval-set

    # Hybrid eval-set ## Определение Оценочный набор, состоящий на 50% из синтетических и на 50% из реальных запросов, для предотвращения переобучения…

  • wikievaluator scores

    # evaluator scores ## Определение Метрики, такие как faithfulness и answer relevance, используемые для оценки дрейфа модели и качества ответов. ## Где встречается…

  • wikisentence-level evaluation

    # sentence-level evaluation ## Определение Подход к оценке качества генерации, при котором ответ разбивается на предложения, и каждое проверяется на соответствие…

  • wikilm-evaluation-harness

    # lm-evaluation-harness ## Определение Инструмент EleutherAI для унифицированного запуска бенчмарков, сбора статистики и проверки contamination при оценке LLM. ## Где встречается…

  • wikiHuman evaluation

    # Human evaluation ## Определение Оценка качества результатов модели с привлечением людей-экспертов. Рекомендуется для критичных кейсов и является эталоном для проверки…

  • wikiтестирование агентов

    …Как проектировать golden dataset для agent evaluation|880. Как проектировать golden dataset для agent evaluation]] - [[Практика|Практика]] - [[800+ вопросов|800…

  • wikilm-eval-harness

    # lm-eval-harness ## Определение Библиотека для стандартизированной оценки accuracy LLM на бенчмарках, таких как MMLU и HellaSwag. ## Где встречается - [[209…

  • wikiDynamic evals

    # Dynamic evals ## Определение Тестовый набор, периодически обновляемый (ротация заданий) для снижения риска подстройки модели под конкретное оценочное множество. ## Где встречается…

  • wikicustom evaluators

    # custom evaluators ## Определение Собственные функции оценки для специфических требований (fairness, drift detection, бизнес-метрики), когда встроенных инструментов недостаточно. ## Где встречается…

  • wikiExtrinsic evaluation

    # Extrinsic evaluation ## Определение Оценка качества представлений (representations) на конкретной downstream-задаче с использованием метрик точности, задержки и стоимости. Противопоставляется внутренней…

  • wikimeta-evaluation

    # meta-evaluation ## Определение Процесс оценки качества самих бенчмарков: проверка валидности, устойчивости к переобучению и насыщения, чтобы убедиться, что бенчмарк измеряет…

  • wikilm_evaluation_harness

    # lm_evaluation_harness ## Определение Библиотека для унифицированного запуска бенчмарков (GSM8K, MATH, HumanEval) на различных моделях. ## Где встречается - [[210. Сравнить GPTQ…

  • answerКак вы детектируете data contamination в evaluation датасетах?

    …train_ngrams.update(ngrams(t, n)) overlap = len(eval_ngrams & train_ngrams) return overlap / len(eval_ngrams) if eval_ngrams…

  • wikirubric-based evaluation

    # rubric-based evaluation ## Определение Метод оценки ответов LLM по заранее определённым критериям (точность, полнота, стиль). Уменьшает bias по сравнению с…

  • wikievaluation report

    # evaluation report ## Определение Итоговый документ с метриками и графиками, формируемый по результатам оценки для анализа и мониторинга. ## Где встречается - [[84…

  • wikired teaming evaluation

    # red teaming evaluation ## Определение Оценка устойчивости LLM к атакам, проводимая в рамках red teaming. Обычно включает набор сценариев атак и…

  • wikiLLM evaluation

    # LLM evaluation ## Определение Процесс оценки качества и поведения языковых моделей с использованием метрик и тестовых наборов. Включает методы вроде IRT…

  • wikiopen-ended task evaluation

    # open-ended task evaluation ## Определение Оценка качества модели на свободных, неограниченных задачах вне стандартных бенчмарков, например, с помощью MT-Bench…

  • wikiRobustness Evaluation

    # Robustness Evaluation ## Определение Процесс оценки устойчивости модели к аугментациям данных или adversarial атакам, часто включающий тестирование на специальных бенчмарках. ## Где…

  • wikiproduction evaluation

    # production evaluation ## Определение Оценка модели на реальных данных из production для проверки её эффективности и качества в условиях эксплуатации. Позволяет…

  • wikiHuman evaluation costs

    # Human evaluation costs ## Определение Затраты на оплату аннотаторов для проведения human evaluation. Является дорогим, но необходимым компонентом оценки faithfulness и…

  • wikiEvaluation

    …Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)|748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation

  • wikiMilestone evaluation

    # Milestone evaluation ## Определение Метод оценки multi-step агентов, проверяющий не только финальный результат, но и достижение промежуточных подцелей (milestones). ## Где…

  • wikiLLM Eval Toolkit

    # LLM Eval Toolkit ## Определение Набор из 8 метрик (Diversity, Reliability, Perturbation, Cascade, Consistency, Factual Grounding, Hallucination, Drift) для комплексной оценки…

  • wikiDSPy Evaluate

    # DSPy Evaluate ## Определение Встроенная функция DSPy для оценки качества модели на заданной метрике. Используется для валидации оптимизаций и предотвращения переобучения…

  • wikiContext Coverage

    …Как делать evaluation для long-context RAG (100k токенов)]] - [[276. Настроить RAGAS evaluation pipeline|276. Настроить RAGAS evaluation pipeline]] ## Навигация…

  • answerЧто такое meta-evaluation бенчмарков (оценка оценки)?

    …Что такое meta-evaluation бенчмарков (оценка оценки)? ## Краткий тезис [[Вики/meta-evaluation\|Meta-evaluation]] ([[Вики/meta-evaluation\|оценка оценки]]) — это…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить RAGAS evaluation pipeline с автоматическим запуском при каждом PR

    …Создайте `.github/workflows/eval.yml`: ```yaml name: RAGAS Evaluation on: pull_request: branches: [main] jobs: evaluate: runs-on: ubuntu-latest…

  • answerКакие инструменты для агентской эвалюации вы используете?

    …Кастомные evaluator'ы (Custom Evaluators) Когда встроенных метрик недостаточно, пишут собственные [[Вики/Evaluator\|evaluator]]'ы. Типичные сценарии: ### 4.1 Drift…

  • wikistatistical power

    …Что такое statistical power evaluation и как определять размер выборки|342. Что такое statistical power evaluation и как определять размер…

  • answerЧто такое synthetic eval collapse и как его предотвратить?

    …Что такое synthetic eval collapse и как его предотвратить? ## Краткий тезис [[Вики/synthetic eval collapse\|Synthetic eval collapse]] — это [[Вики…

  • wikianswer_exact_match

    …Как вы детектируете data contamination в evaluation датасетах|350. Как вы детектируете data contamination в evaluation датасетах]] - [[488. Что такое…

  • wikiHugging Face Evaluate

    # Hugging Face Evaluate ## Определение Библиотека для оценки метрик моделей, упрощающая вычисление стандартных показателей качества. ## Где встречается - [[214. Реализовать FP8 инференс…

  • answerКак в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)?

    Evaluation и Drift в контексте AI-агентов **[[Вики/Evaluation\|Evaluation]] ([[Вики/Evaluation\|оценка]])** — процесс измерения качества работы агента на репрезентативном…

  • wikievaluator-based quality assessment

    # evaluator-based quality assessment ## Определение Оценка качества LLM с помощью модели-оценщика, а не простых автоматических метрик, что повышает точность…

  • wikiMulti-needle

    …Как делать evaluation для long-context RAG (100k токенов)|879. Как делать evaluation для long-context RAG (100k токенов)]] - [[800…