Поиск

  • wikiRAG evaluation

    # RAG evaluation ## Определение Оценка RAG (RAG evaluation) — процесс измерения качества поиска и генерации в RAG-системе, часто с использованием синтетических…

  • wikievaluation overfitting

    …Как избежать evaluation overfitting (когда модель учится на тесте)|876. Как избежать evaluation overfitting (когда модель учится на тесте)]] - [[800…

  • wikiPath-level evaluation

    # Path-level evaluation ## Определение Метод оценки работы агентов, при котором оценивается правильность маршрута (какие инструменты вызваны, в каком порядке, корректность…

  • wikisentence-level evaluation

    # sentence-level evaluation ## Определение Подход к оценке качества генерации, при котором ответ разбивается на предложения, и каждое проверяется на соответствие…

  • wikilm-evaluation-harness

    # lm-evaluation-harness ## Определение Инструмент EleutherAI для унифицированного запуска бенчмарков, сбора статистики и проверки contamination при оценке LLM. ## Где встречается…

  • wikiToken-level evaluation

    # Token-level evaluation ## Определение Метод оценки качества генерации, сравнивающий сгенерированные токены с эталонными (exact match, BLEU, ROUGE, F1). Может быть…

  • wikiExtrinsic evaluation

    # Extrinsic evaluation ## Определение Оценка качества представлений (representations) на конкретной downstream-задаче с использованием метрик точности, задержки и стоимости. Противопоставляется внутренней…

  • wikiHuman evaluation

    # Human evaluation ## Определение Оценка качества результатов модели с привлечением людей-экспертов. Рекомендуется для критичных кейсов и является эталоном для проверки…

  • wikimeta-evaluation

    # meta-evaluation ## Определение Процесс оценки качества самих бенчмарков: проверка валидности, устойчивости к переобучению и насыщения, чтобы убедиться, что бенчмарк измеряет…

  • wikiтестирование агентов

    …Как проектировать golden dataset для agent evaluation|880. Как проектировать golden dataset для agent evaluation]] - [[Практика|Практика]] - [[800+ вопросов|800…

  • wikirubric-based evaluation

    # rubric-based evaluation ## Определение Метод оценки ответов LLM по заранее определённым критериям (точность, полнота, стиль). Уменьшает bias по сравнению с…

  • wikievaluation report

    # evaluation report ## Определение Итоговый документ с метриками и графиками, формируемый по результатам оценки для анализа и мониторинга. ## Где встречается - [[84…

  • wikired teaming evaluation

    # red teaming evaluation ## Определение Оценка устойчивости LLM к атакам, проводимая в рамках red teaming. Обычно включает набор сценариев атак и…

  • wikiLLM evaluation

    # LLM evaluation ## Определение Процесс оценки качества и поведения языковых моделей с использованием метрик и тестовых наборов. Включает методы вроде IRT…

  • wikiopen-ended task evaluation

    # open-ended task evaluation ## Определение Оценка качества модели на свободных, неограниченных задачах вне стандартных бенчмарков, например, с помощью MT-Bench…

  • wikiRobustness Evaluation

    # Robustness Evaluation ## Определение Процесс оценки устойчивости модели к аугментациям данных или adversarial атакам, часто включающий тестирование на специальных бенчмарках. ## Где…

  • wikiproduction evaluation

    # production evaluation ## Определение Оценка модели на реальных данных из production для проверки её эффективности и качества в условиях эксплуатации. Позволяет…

  • wikiHuman evaluation costs

    # Human evaluation costs ## Определение Затраты на оплату аннотаторов для проведения human evaluation. Является дорогим, но необходимым компонентом оценки faithfulness и…

  • wikiEvaluation

    …Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)|748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation

  • wikiMilestone evaluation

    # Milestone evaluation ## Определение Метод оценки multi-step агентов, проверяющий не только финальный результат, но и достижение промежуточных подцелей (milestones). ## Где…

  • wikilm_evaluation_harness

    # lm_evaluation_harness ## Определение Библиотека для унифицированного запуска бенчмарков (GSM8K, MATH, HumanEval) на различных моделях. ## Где встречается - [[210. Сравнить GPTQ…

  • wikiContext Coverage

    …Как делать evaluation для long-context RAG (100k токенов)]] - [[276. Настроить RAGAS evaluation pipeline|276. Настроить RAGAS evaluation pipeline]] ## Навигация…

  • answerЧто такое meta-evaluation бенчмарков (оценка оценки)?

    …Что такое meta-evaluation бенчмарков (оценка оценки)? ## Краткий тезис [[Вики/meta-evaluation\|Meta-evaluation]] ([[Вики/meta-evaluation\|оценка оценки]]) — это…

  • answerКак вы детектируете data contamination в evaluation датасетах?

    …одну, которая точно не видела [[Вики/Evaluation\|evaluation]] (например, меньшую версию), и целевую. - Разница в перплексии между моделями на evaluation

  • wikistatistical power

    …Что такое statistical power evaluation и как определять размер выборки|342. Что такое statistical power evaluation и как определять размер…

  • wikisynthetic evaluation

    # synthetic evaluation ## Определение Метод автоматической генерации тестовых вопросов и эталонных ответов с помощью LLM для оценки RAG-систем или агентов…

  • wikianswer_exact_match

    …Как вы детектируете data contamination в evaluation датасетах|350. Как вы детектируете data contamination в evaluation датасетах]] - [[488. Что такое…

  • wikieval пайплайн

    # eval пайплайн ## Определение Конвейер автоматической оценки, запускаемый при pull request для генерации отчёта о качестве. ## Где встречается - [[Практика|Практика]] - [[800…

  • wikiMulti-needle

    …Как делать evaluation для long-context RAG (100k токенов)|879. Как делать evaluation для long-context RAG (100k токенов)]] - [[800…

  • wikiIntrinsic evaluation

    # Intrinsic evaluation ## Определение Оценка качества эмбеддингов на стандартных бенчмарках без привязки к конкретной задаче. ## Где встречается - [[192. Как вы оцениваете…

  • wikiLLM evaluation metrics

    # LLM evaluation metrics ## Определение Количественные показатели для оценки качества ответов LLM, такие как точность, релевантность, уверенность. Используются для управления привилегиями…

  • wikipreference simulation

    # preference simulation ## Определение Метод генерации синтетических человеческих предпочтений с заданными вероятностями, используемый для pairwise evaluation моделей без привлечения реальных annotators…

  • wikiQA-based evaluation

    # QA-based evaluation ## Определение Метод оценки faithfulness (фактологической точности) ответа: из ответа генерируются вопросы, затем проверяется, можно ли ответить на…

  • wikipointwise

    …Настроить pairwise evaluation для моделей|284. Настроить pairwise evaluation для моделей]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiadversarial filtering

    # adversarial filtering ## Определение Создание контрпримеров для проверки, использует ли модель shortcuts вместо истинного конструкта, применяется в meta-evaluation. ## Где встречается…

  • wikiEvaluation API

    # Evaluation API ## Определение Интерфейс для удаленного вызова бенчмарка без раскрытия данных, обеспечивающий безопасную и контролируемую оценку. ## Где встречается - [[689. Как…

  • wikiPolicy evaluation

    # Policy evaluation ## Определение Процесс проверки tool call'а на соответствие заранее определённым правилам в AdmissionController. ## Где встречается - [[747. Что такое…

  • wikievaluation leakage

    # evaluation leakage ## Определение Ситуация, когда eval-данные пересекаются с train-данными, что приводит к необъективной оценке модели. ## Где встречается - [[494…

  • wikiGolden Holdout

    # Golden Holdout ## Определение Фиксированный тестовый набор, применяемый только для финальной оценки, чтобы избежать evaluation overfitting. ## Где встречается - [[876. Как избежать…

  • wikiListwise evaluation

    # Listwise evaluation ## Определение Метод оценки качества ранжирования, при котором все K релевантных ответов на запрос ранжируются вместе; используется метриками NDCG…

  • wikionline evaluation

    # online evaluation ## Определение Оценка модели в production на реальном пользовательском трафике, включающая A/B-тесты и бизнес-метрики. ## Где встречается…

  • wikipwr

    …Используется в evaluation LLM. ## Где встречается - [[342. Что такое statistical power evaluation и как определять размер выборки|342. Что такое…

  • wikilazy evaluation

    # lazy evaluation ## Определение Механизм отложенных вычислений, при котором операции (например, в Dask) выполняются только после явного вызова .compute(). Позволяет оптимизировать…

  • wikievaluator-based evaluation

    # evaluator-based evaluation ## Определение Подход к оценке LLM с использованием отдельной модели-оценщика (evaluator) вместо автоматических метрик. ## Где встречается - [[178…

  • wikipeeking

    …Что такое statistical power evaluation и как определять размер выборки для AB теста|491. Что такое statistical power evaluation и…

  • wikiLM Contamination

    …Как вы детектируете data contamination в evaluation датасетах|350. Как вы детектируете data contamination в evaluation датасетах]] ## Навигация - [[00. Индекс…

  • wikiRLHF Evaluation Suite

    # RLHF Evaluation Suite ## Определение Комплекс метрик от OpenAI для оценки качества выравнивания (alignment) моделей, обученных с помощью RLHF. ## Где встречается…

  • wikiEval runner

    …Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)|748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation

  • wikiNested cross-validation

    …внешний для оценки обобщающей способности, внутренний для настройки гиперпараметров, предотвращающий evaluation overfitting. ## Где встречается - [[876. Как избежать evaluation overfitting (когда…

  • wikiMatryoshka evaluation

    # Matryoshka evaluation ## Определение Метод оценки с вложенными задачами, который моделирует каскадное рассуждение и распространение ошибок для проверки способности к сложным…