Поиск
- wikimeta-evaluation
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[800+ вопросов|800+ вопросов]] ## Навигация…
- wikicriterion validity
# criterion validity ## Определение Метод оценки бенчмарка, измеряющий корреляцию его результатов с внешним критерием реального качества (например, экспертная оценка). ## Где встречается…
- wikiLLM-оценка риска
# LLM-оценка риска ## Определение Использование LLM для классификации действия агента как опасного до его выполнения, обеспечивая дополнительный уровень безопасности. ## Где…
- wikiscalar rating
# scalar rating ## Определение Метод оценки, при котором пользователь ставит оценку (например, 1-5), страдает от межпользовательской вариативности. ## Где встречается - [[495…
- wikiоценка прогресса
# оценка прогресса ## Определение Проверка отсутствия изменений в состоянии агента за последние шаги (например, 3 шага) для выявления зацикливания и остановки…
- wikisaturation gap
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiHuman evaluation
# Human evaluation ## Определение Оценка качества результатов модели с привлечением людей-экспертов. Рекомендуется для критичных кейсов и является эталоном для проверки…
- wikicontent validity
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikishortcuts
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiconfounding factors
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiRGB
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiIntrinsic evaluation
# Intrinsic evaluation ## Определение Оценка качества эмбеддингов на стандартных бенчмарках без привязки к конкретной задаче. ## Где встречается - [[192. Как вы оцениваете…
- wikiopen-ended task evaluation
# open-ended task evaluation ## Определение Оценка качества модели на свободных, неограниченных задачах вне стандартных бенчмарков, например, с помощью MT-Bench…
- wikiKILT
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiadversarial filtering
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikibenchmark overfitting
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiitem difficulty distribution
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiWebArena
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiproduction evaluation
# production evaluation ## Определение Оценка модели на реальных данных из production для проверки её эффективности и качества в условиях эксплуатации. Позволяет…
- wikiconstruct validity
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[800+ вопросов|800+ вопросов]] ## Навигация…
- wikiOperator Satisfaction Score
# Operator Satisfaction Score ## Определение Оценка удовлетворённости оператора после смены по шкале 1-5; целевое значение >4.0. ## Где встречается - [[771…
- wikiadvantage estimation
# advantage estimation ## Определение Оценка того, насколько действие лучше среднего; используется в PPO для credit assignment. ## Где встречается - [[339. Как работает…
- wikiSurge AI
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
- wikiExtrinsic evaluation
# Extrinsic evaluation ## Определение Оценка качества представлений (representations) на конкретной downstream-задаче с использованием метрик точности, задержки и стоимости. Противопоставляется внутренней…
- wikiScale AI
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
- wikiLabelbox
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
- wikiAmazon Mechanical Turk
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
- wikiRAG evaluation
# RAG evaluation ## Определение Оценка RAG (RAG evaluation) — процесс измерения качества поиска и генерации в RAG-системе, часто с использованием синтетических…
- wikiBIG-bench
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiAgentBench
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[874. Как оценивать multi-step…
- wikidiminishing returns
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[699. Как вы оцениваете, сколько…
- wikipairwise ranking loss
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
- wikiruGPT-3.5
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
- wikiEvaluation
# Evaluation ## Определение Процесс измерения качества работы модели или агента с использованием скореров (faithfulness, relevance, correctness), встроенный в CI/CD пайплайн…
- wikiruBERT
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
- wikiPearson correlation
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[800+ вопросов|800+ вопросов]] - [[30…
- wikilm-evaluation-harness
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[68. Настроить inference-time scaling…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать LLM-as-Judge с калибровкой
…Оценка согласия с human labels (оценка времени: 0.5 часа) Действия 1. Написать скрипт `compute_metrics.py`: ```python from sklearn…
- wikiMETEOR
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
- answerЧто такое meta-evaluation бенчмарков (оценка оценки)?
…Что такое meta-evaluation бенчмарков (оценка оценки)? ## Краткий тезис [[Вики/meta-evaluation\|Meta-evaluation]] ([[Вики/meta-evaluation\|оценка оценки]]) — это…
- wikiShareGPT / OpenAssistant / Dolly
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
- wikiтестирование агентов
# тестирование агентов ## Определение Процесс количественной и качественной оценки поведения AI-агента в контролируемых сценариях, включающий проверку корректности шагов, целостности траектории…
- wikitrust score
# trust score ## Определение Trust score — числовая оценка надежности источника или документа, используемая для ранжирования и защиты от data poisoning. ## Где…
- answerКак вы проводите A/B тест метрик качества (не бизнес-метрик)?
…Получаем две таблицы оценок: **Группа A (старая метрика):** | ID | Оценка человека | Оценка A | |----|-----------------|----------| | 001 | 5 | 4 | | 002 | 5 | 5 | | 003…
- wikireliability
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[575. Как работает hierarchical planning…
- wikiMS MARCO
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[44. Настроить query expansion|44…
- wikiGoodhart's law
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiPass@k
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[689. Как вы проектируете dynamic…
- answerКак вы оцениваете alignment модели с человеческими ценностями без gold standard?
…Как вы оцениваете alignment модели с человеческими ценностями без gold standard? ## Краткий тезис [[Вики/Evaluation\|Оценка]] [[Вики/safety alignment\|alignment…
- wikiHellaSwag
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[655. Что такое SwiGLU и…