Поиск
- wikirubric-based evaluation
# rubric-based evaluation ## Определение Метод оценки ответов LLM по заранее определённым критериям (точность, полнота, стиль). Уменьшает bias по сравнению с…
- wikiLLM evaluation
# LLM evaluation ## Определение Процесс оценки качества и поведения языковых моделей с использованием метрик и тестовых наборов. Включает методы вроде IRT…
- wikiHuman evaluation costs
…evaluation. Является дорогим, но необходимым компонентом оценки faithfulness и relevance. ## Где встречается - [[139. Как вы оцениваете cost-effectiveness LLM-пайплайна…
- wikiLLM evaluation metrics
# LLM evaluation metrics ## Определение Количественные показатели для оценки качества ответов LLM, такие как точность, релевантность, уверенность. Используются для управления привилегиями…
- wikilm-evaluation-harness
# lm-evaluation-harness ## Определение Инструмент EleutherAI для унифицированного запуска бенчмарков, сбора статистики и проверки contamination при оценке LLM. ## Где встречается…
- wikired teaming evaluation
# red teaming evaluation ## Определение Оценка устойчивости LLM к атакам, проводимая в рамках red teaming. Обычно включает набор сценариев атак и…
- wikievaluator-based evaluation
# evaluator-based evaluation ## Определение Подход к оценке LLM с использованием отдельной модели-оценщика (evaluator) вместо автоматических метрик. ## Где встречается - [[178…
- wikipointwise
…Настроить pairwise evaluation для моделей|284. Настроить pairwise evaluation для моделей]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikianswer_exact_match
…Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации]] - [[578. Что такое agent evaluation метрика successful…
- wikiheatmap
…Сделать финансовую модель LLM-продукта]] - [[151. Настроить trajectory coverage|151. Настроить trajectory coverage]] - [[284. Настроить pairwise evaluation для моделей|284…
- wikistatsmodels
…Чем отличается эвалюация LLM от эвалюации традиционных ML моделей]] - [[342. Что такое statistical power evaluation и как определять размер выборки…
- wikisynthetic evaluation
# synthetic evaluation ## Определение Метод автоматической генерации тестовых вопросов и эталонных ответов с помощью LLM для оценки RAG-систем или агентов…
- wikipwr
…Используется в evaluation LLM. ## Где встречается - [[342. Что такое statistical power evaluation и как определять размер выборки|342. Что такое…
- answerКак вы детектируете data contamination в evaluation датасетах?
…Как вы защищаете LLM от градиентных атак (white-box jailbreak)\|355]] | Как вы детектируете adversarial примеры в evaluation? | | [[340. Что…
- wikiLLM-generated
…LLM, например, для red teaming и оценки устойчивости к jailbreak. ## Где встречается - [[345. Как вы проектируете red teaming evaluation для…
- wikiGoogle C4 dataset
…Применяется для претренировки LLM и проверки перекрытия n-граммов в evaluation-датасетах (data contamination). ## Где встречается - [[350. Как вы детектируете…
- wikiadversarial input
…Как вы тестируете robustness LLM к adversarial input (не только injection)]] - [[345. Как вы проектируете red teaming evaluation для jailbreak…
- wikihelm
…Как вы управляете секретами (API keys для LLM) в Kubernetes]] - [[498. Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что…
- wikiPairwise comparison
…Чем отличается эвалюация LLM от эвалюации традиционных ML моделей|178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей]] - [[326…
- answerЧто такое meta-evaluation бенчмарков (оценка оценки)?
…Вики/LLM\|LLM]]. --- ## 1. Определение meta-evaluation и её необходимость [[Вики/meta-evaluation\|Meta-evaluation]] ([[Вики/meta-evaluation\|оценка оценки…
- wikiMulti-step reasoning
…Как генерировать synthetic датасеты для RAG evaluation|866. Как генерировать synthetic датасеты для RAG evaluation]] - [[879. Как делать evaluation для…
- wikiPromptBench
…оценки устойчивости LLM к adversarial промптам, включая jailbreak-атаки. ## Где встречается - [[497. Как вы проектируете red teaming evaluation для jailbreak…
- answerЧто такое meta-evaluation бенчмарков (оценка оценки)?
…evaluation для jailbreak устойчивости\|497]] | Как вы оцениваете качество работы AI-агента? | | [[500. Как вы измеряете uncertainty в ответах LLM…
- wikiLikelihood Ratio Attack
…Как вы детектируете data contamination в evaluation датасетах]] - [[602. Как работает membership inference атака на LLM|602. Как работает membership…
- wikiContext manipulation
…LLM. ## Где встречается - [[345. Как вы проектируете red teaming evaluation для jailbreak устойчивости|345. Как вы проектируете red teaming evaluation…
- wikiWeighted Kappa
…Как вы измеряете inter-rater reliability для human evaluation]] - [[277. Реализовать LLM-as-Judge с калибровкой|277. Реализовать LLM-as…
- wikired teaming
…Как вы проводите red teaming LLM-приложения Назовите 3 техники.]] - [[138. Что такое «оценка с подкреплением» (RLHF evaluation) и как…
- wikiдатасеты
…Реализовать LLM-as-Judge с калибровкой|277. Реализовать LLM-as-Judge с калибровкой]] - [[284. Настроить pairwise evaluation для моделей|284…
- wikiBERT-Attack
…Как тестировать robustness LLM к adversarial inputs]] - [[Практика|Практика]] - [[800+ вопросов|800+ вопросов]] - [[279. Настроить adversarial evaluation для RAG|279…
- wikiGPT-4o mini
…Как вы снижаете стоимость LLM в production на 50%+]] - [[276. Настроить RAGAS evaluation pipeline|276. Настроить RAGAS evaluation pipeline]] ## Навигация…
- wikiArize
# Arize ## Определение Платформа мониторинга и observability для ML/LLM систем, альтернатива LangSmith. ## Где встречается - [[578. Что такое agent evaluation метрика…
- wikiJailbreak
…Как вы проводите red teaming LLM-приложения Назовите 3 техники.]] - [[345. Как вы проектируете red teaming evaluation для jailbreak устойчивости…
- wikiDeep Ensembles
…Что такое calibration для LLM и как её измерять (ECE)]] - [[876. Как избежать evaluation overfitting (когда модель учится на тесте…
- wikiScorer
…F1 или LLM-as-Judge. ## Где встречается - [[748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)|748. Как…
- wikiCUSUM
…Как вы измеряете дрейф модели (model drift) для LLM]] - [[748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift…
- wikiCohen's Kappa
…Как вы калибруете LLM-судью под человеческие оценки]] - [[138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается…
- wikigradient-based
…Как вы проводите red teaming LLM-приложения Назовите 3 техники.]] - [[345. Как вы проектируете red teaming evaluation для jailbreak устойчивости…
- answerЧто такое Path-level evaluation для Agentic RAG и чем оно лучше token-level?
…выявляются лишние вызовы, что критично для стоимости (каждый вызов LLM или API стоит денег). ## 5. Как реализовать path-level evaluation…
- wikiCost Analysis
…и вызовов LLM. Помогает выявить узкие места и оптимизировать затраты. ## Где встречается - [[578. Что такое agent evaluation метрика successful task…
- wikiAdvBench
# AdvBench ## Определение Стандартный бенчмарк для оценки устойчивости LLM к adversarial атакам, часто используемый в red teaming. ## Где встречается - [[360. Что…
- wikiruGPT-3.5
…Какие LLM для русского языка вы используете]] - [[138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от…
- wikiTextFooler
…Как тестировать robustness LLM к adversarial inputs]] - [[Практика|Практика]] - [[800+ вопросов|800+ вопросов]] - [[279. Настроить adversarial evaluation для RAG|279…
- wikishadow model
…Как вы детектируете data contamination в evaluation датасетах]] - [[357. Как работает membership inference атака на LLM|357. Как работает membership…
- wikiGarak
…Как вы проводите red teaming LLM-приложения Назовите 3 техники.]] - [[345. Как вы проектируете red teaming evaluation для jailbreak устойчивости…
- wikiBIG-bench
# BIG-bench ## Определение Набор бенчмарков для оценки LLM, включающий задачи на креативность и проверку construct validity модели. ## Где встречается - [[172…
- wikiутечка данных
…Как вы проводите red teaming LLM-приложения Назовите 3 техники.|127. Как вы проводите red teaming LLM-приложения Назовите 3…
- wikiLiveBench
# LiveBench ## Определение Динамический бенчмарк для LLM, который еженедельно обновляется на основе свежих новостей, чтобы избежать data contamination и обеспечить объективную…
- wikiROUGE
…Альтернативы LLM-as-Judge — назовите 3 и их ограничения.]] - [[138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она…
- wikicontinuous red teaming
…с использованием LLM для обеспечения robustness и безопасности. ## Где встречается - [[497. Как вы проектируете red teaming evaluation для jailbreak устойчивости…
- wikiAgentBench
# AgentBench ## Определение Бенчмарк для оценки LLM-агентов в 8 средах (web, CLI, SQL и др.), подверженный проблемам construct validity и…