Поиск

  • wikimeta-evaluation

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[800+ вопросов|800+ вопросов]] ## Навигация…

  • wikicriterion validity

    # criterion validity ## Определение Метод оценки бенчмарка, измеряющий корреляцию его результатов с внешним критерием реального качества (например, экспертная оценка). ## Где встречается…

  • wikiLLM-оценка риска

    # LLM-оценка риска ## Определение Использование LLM для классификации действия агента как опасного до его выполнения, обеспечивая дополнительный уровень безопасности. ## Где…

  • wikiscalar rating

    # scalar rating ## Определение Метод оценки, при котором пользователь ставит оценку (например, 1-5), страдает от межпользовательской вариативности. ## Где встречается - [[495…

  • wikiоценка прогресса

    # оценка прогресса ## Определение Проверка отсутствия изменений в состоянии агента за последние шаги (например, 3 шага) для выявления зацикливания и остановки…

  • wikisaturation gap

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiHuman evaluation

    # Human evaluation ## Определение Оценка качества результатов модели с привлечением людей-экспертов. Рекомендуется для критичных кейсов и является эталоном для проверки…

  • wikicontent validity

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikishortcuts

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiconfounding factors

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiRGB

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiIntrinsic evaluation

    # Intrinsic evaluation ## Определение Оценка качества эмбеддингов на стандартных бенчмарках без привязки к конкретной задаче. ## Где встречается - [[192. Как вы оцениваете…

  • wikiopen-ended task evaluation

    # open-ended task evaluation ## Определение Оценка качества модели на свободных, неограниченных задачах вне стандартных бенчмарков, например, с помощью MT-Bench…

  • wikiKILT

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiadversarial filtering

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikibenchmark overfitting

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiitem difficulty distribution

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiWebArena

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiproduction evaluation

    # production evaluation ## Определение Оценка модели на реальных данных из production для проверки её эффективности и качества в условиях эксплуатации. Позволяет…

  • wikiconstruct validity

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[800+ вопросов|800+ вопросов]] ## Навигация…

  • wikiOperator Satisfaction Score

    # Operator Satisfaction Score ## Определение Оценка удовлетворённости оператора после смены по шкале 1-5; целевое значение >4.0. ## Где встречается - [[771…

  • wikiadvantage estimation

    # advantage estimation ## Определение Оценка того, насколько действие лучше среднего; используется в PPO для credit assignment. ## Где встречается - [[339. Как работает…

  • wikiSurge AI

    …Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…

  • wikiExtrinsic evaluation

    # Extrinsic evaluation ## Определение Оценка качества представлений (representations) на конкретной downstream-задаче с использованием метрик точности, задержки и стоимости. Противопоставляется внутренней…

  • wikiScale AI

    …Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…

  • wikiLabelbox

    …Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…

  • wikiAmazon Mechanical Turk

    …Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…

  • wikiRAG evaluation

    # RAG evaluation ## Определение Оценка RAG (RAG evaluation) — процесс измерения качества поиска и генерации в RAG-системе, часто с использованием синтетических…

  • wikiBIG-bench

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiAgentBench

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[874. Как оценивать multi-step…

  • wikidiminishing returns

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[699. Как вы оцениваете, сколько…

  • wikipairwise ranking loss

    …Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…

  • wikiruGPT-3.5

    …Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…

  • wikiEvaluation

    # Evaluation ## Определение Процесс измерения качества работы модели или агента с использованием скореров (faithfulness, relevance, correctness), встроенный в CI/CD пайплайн…

  • wikiruBERT

    …Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…

  • wikiPearson correlation

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[800+ вопросов|800+ вопросов]] - [[30…

  • wikilm-evaluation-harness

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[68. Настроить inference-time scaling…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать LLM-as-Judge с калибровкой

    Оценка согласия с human labels (оценка времени: 0.5 часа) Действия 1. Написать скрипт `compute_metrics.py`: ```python from sklearn…

  • wikiMETEOR

    …Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…

  • answerЧто такое meta-evaluation бенчмарков (оценка оценки)?

    …Что такое meta-evaluation бенчмарков (оценка оценки)? ## Краткий тезис [[Вики/meta-evaluation\|Meta-evaluation]] ([[Вики/meta-evaluation\|оценка оценки]]) — это…

  • wikiShareGPT / OpenAssistant / Dolly

    …Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…

  • wikiтестирование агентов

    # тестирование агентов ## Определение Процесс количественной и качественной оценки поведения AI-агента в контролируемых сценариях, включающий проверку корректности шагов, целостности траектории…

  • wikitrust score

    # trust score ## Определение Trust score — числовая оценка надежности источника или документа, используемая для ранжирования и защиты от data poisoning. ## Где…

  • answerКак вы проводите A/B тест метрик качества (не бизнес-метрик)?

    …Получаем две таблицы оценок: **Группа A (старая метрика):** | ID | Оценка человека | Оценка A | |----|-----------------|----------| | 001 | 5 | 4 | | 002 | 5 | 5 | | 003…

  • wikireliability

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[575. Как работает hierarchical planning…

  • wikiMS MARCO

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[44. Настроить query expansion|44…

  • wikiGoodhart's law

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiPass@k

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[689. Как вы проектируете dynamic…

  • answerКак вы оцениваете alignment модели с человеческими ценностями без gold standard?

    …Как вы оцениваете alignment модели с человеческими ценностями без gold standard? ## Краткий тезис [[Вики/Evaluation\|Оценка]] [[Вики/safety alignment\|alignment…

  • wikiHellaSwag

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[655. Что такое SwiGLU и…