Поиск

  • wikirubric-based evaluation

    # rubric-based evaluation ## Определение Метод оценки ответов LLM по заранее определённым критериям (точность, полнота, стиль). Уменьшает bias по сравнению с…

  • wikiLLM evaluation

    # LLM evaluation ## Определение Процесс оценки качества и поведения языковых моделей с использованием метрик и тестовых наборов. Включает методы вроде IRT…

  • wikiHuman evaluation costs

    evaluation. Является дорогим, но необходимым компонентом оценки faithfulness и relevance. ## Где встречается - [[139. Как вы оцениваете cost-effectiveness LLM-пайплайна…

  • wikiLLM evaluation metrics

    # LLM evaluation metrics ## Определение Количественные показатели для оценки качества ответов LLM, такие как точность, релевантность, уверенность. Используются для управления привилегиями…

  • wikilm-evaluation-harness

    # lm-evaluation-harness ## Определение Инструмент EleutherAI для унифицированного запуска бенчмарков, сбора статистики и проверки contamination при оценке LLM. ## Где встречается…

  • wikired teaming evaluation

    # red teaming evaluation ## Определение Оценка устойчивости LLM к атакам, проводимая в рамках red teaming. Обычно включает набор сценариев атак и…

  • wikievaluator-based evaluation

    # evaluator-based evaluation ## Определение Подход к оценке LLM с использованием отдельной модели-оценщика (evaluator) вместо автоматических метрик. ## Где встречается - [[178…

  • wikipointwise

    …Настроить pairwise evaluation для моделей|284. Настроить pairwise evaluation для моделей]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikianswer_exact_match

    …Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации]] - [[578. Что такое agent evaluation метрика successful…

  • wikiheatmap

    …Сделать финансовую модель LLM-продукта]] - [[151. Настроить trajectory coverage|151. Настроить trajectory coverage]] - [[284. Настроить pairwise evaluation для моделей|284…

  • wikistatsmodels

    …Чем отличается эвалюация LLM от эвалюации традиционных ML моделей]] - [[342. Что такое statistical power evaluation и как определять размер выборки…

  • wikisynthetic evaluation

    # synthetic evaluation ## Определение Метод автоматической генерации тестовых вопросов и эталонных ответов с помощью LLM для оценки RAG-систем или агентов…

  • wikipwr

    …Используется в evaluation LLM. ## Где встречается - [[342. Что такое statistical power evaluation и как определять размер выборки|342. Что такое…

  • answerКак вы детектируете data contamination в evaluation датасетах?

    …Как вы защищаете LLM от градиентных атак (white-box jailbreak)\|355]] | Как вы детектируете adversarial примеры в evaluation? | | [[340. Что…

  • wikiLLM-generated

    LLM, например, для red teaming и оценки устойчивости к jailbreak. ## Где встречается - [[345. Как вы проектируете red teaming evaluation для…

  • wikiGoogle C4 dataset

    …Применяется для претренировки LLM и проверки перекрытия n-граммов в evaluation-датасетах (data contamination). ## Где встречается - [[350. Как вы детектируете…

  • wikiadversarial input

    …Как вы тестируете robustness LLM к adversarial input (не только injection)]] - [[345. Как вы проектируете red teaming evaluation для jailbreak…

  • wikihelm

    …Как вы управляете секретами (API keys для LLM) в Kubernetes]] - [[498. Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что…

  • wikiPairwise comparison

    …Чем отличается эвалюация LLM от эвалюации традиционных ML моделей|178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей]] - [[326…

  • answerЧто такое meta-evaluation бенчмарков (оценка оценки)?

    …Вики/LLM\|LLM]]. --- ## 1. Определение meta-evaluation и её необходимость [[Вики/meta-evaluation\|Meta-evaluation]] ([[Вики/meta-evaluation\|оценка оценки…

  • wikiMulti-step reasoning

    …Как генерировать synthetic датасеты для RAG evaluation|866. Как генерировать synthetic датасеты для RAG evaluation]] - [[879. Как делать evaluation для…

  • wikiPromptBench

    …оценки устойчивости LLM к adversarial промптам, включая jailbreak-атаки. ## Где встречается - [[497. Как вы проектируете red teaming evaluation для jailbreak…

  • answerЧто такое meta-evaluation бенчмарков (оценка оценки)?

    evaluation для jailbreak устойчивости\|497]] | Как вы оцениваете качество работы AI-агента? | | [[500. Как вы измеряете uncertainty в ответах LLM

  • wikiLikelihood Ratio Attack

    …Как вы детектируете data contamination в evaluation датасетах]] - [[602. Как работает membership inference атака на LLM|602. Как работает membership…

  • wikiContext manipulation

    LLM. ## Где встречается - [[345. Как вы проектируете red teaming evaluation для jailbreak устойчивости|345. Как вы проектируете red teaming evaluation

  • wikiWeighted Kappa

    …Как вы измеряете inter-rater reliability для human evaluation]] - [[277. Реализовать LLM-as-Judge с калибровкой|277. Реализовать LLM-as…

  • wikired teaming

    …Как вы проводите red teaming LLM-приложения Назовите 3 техники.]] - [[138. Что такое «оценка с подкреплением» (RLHF evaluation) и как…

  • wikiдатасеты

    …Реализовать LLM-as-Judge с калибровкой|277. Реализовать LLM-as-Judge с калибровкой]] - [[284. Настроить pairwise evaluation для моделей|284…

  • wikiBERT-Attack

    …Как тестировать robustness LLM к adversarial inputs]] - [[Практика|Практика]] - [[800+ вопросов|800+ вопросов]] - [[279. Настроить adversarial evaluation для RAG|279…

  • wikiGPT-4o mini

    …Как вы снижаете стоимость LLM в production на 50%+]] - [[276. Настроить RAGAS evaluation pipeline|276. Настроить RAGAS evaluation pipeline]] ## Навигация…

  • wikiArize

    # Arize ## Определение Платформа мониторинга и observability для ML/LLM систем, альтернатива LangSmith. ## Где встречается - [[578. Что такое agent evaluation метрика…

  • wikiJailbreak

    …Как вы проводите red teaming LLM-приложения Назовите 3 техники.]] - [[345. Как вы проектируете red teaming evaluation для jailbreak устойчивости…

  • wikiDeep Ensembles

    …Что такое calibration для LLM и как её измерять (ECE)]] - [[876. Как избежать evaluation overfitting (когда модель учится на тесте…

  • wikiScorer

    …F1 или LLM-as-Judge. ## Где встречается - [[748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)|748. Как…

  • wikiCUSUM

    …Как вы измеряете дрейф модели (model drift) для LLM]] - [[748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift…

  • wikiCohen's Kappa

    …Как вы калибруете LLM-судью под человеческие оценки]] - [[138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается…

  • wikigradient-based

    …Как вы проводите red teaming LLM-приложения Назовите 3 техники.]] - [[345. Как вы проектируете red teaming evaluation для jailbreak устойчивости…

  • answerЧто такое Path-level evaluation для Agentic RAG и чем оно лучше token-level?

    …выявляются лишние вызовы, что критично для стоимости (каждый вызов LLM или API стоит денег). ## 5. Как реализовать path-level evaluation

  • wikiCost Analysis

    …и вызовов LLM. Помогает выявить узкие места и оптимизировать затраты. ## Где встречается - [[578. Что такое agent evaluation метрика successful task…

  • wikiAdvBench

    # AdvBench ## Определение Стандартный бенчмарк для оценки устойчивости LLM к adversarial атакам, часто используемый в red teaming. ## Где встречается - [[360. Что…

  • wikiruGPT-3.5

    …Какие LLM для русского языка вы используете]] - [[138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от…

  • wikiTextFooler

    …Как тестировать robustness LLM к adversarial inputs]] - [[Практика|Практика]] - [[800+ вопросов|800+ вопросов]] - [[279. Настроить adversarial evaluation для RAG|279…

  • wikishadow model

    …Как вы детектируете data contamination в evaluation датасетах]] - [[357. Как работает membership inference атака на LLM|357. Как работает membership…

  • wikiGarak

    …Как вы проводите red teaming LLM-приложения Назовите 3 техники.]] - [[345. Как вы проектируете red teaming evaluation для jailbreak устойчивости…

  • wikiBIG-bench

    # BIG-bench ## Определение Набор бенчмарков для оценки LLM, включающий задачи на креативность и проверку construct validity модели. ## Где встречается - [[172…

  • wikiутечка данных

    …Как вы проводите red teaming LLM-приложения Назовите 3 техники.|127. Как вы проводите red teaming LLM-приложения Назовите 3…

  • wikiLiveBench

    # LiveBench ## Определение Динамический бенчмарк для LLM, который еженедельно обновляется на основе свежих новостей, чтобы избежать data contamination и обеспечить объективную…

  • wikiROUGE

    …Альтернативы LLM-as-Judge — назовите 3 и их ограничения.]] - [[138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она…

  • wikicontinuous red teaming

    …с использованием LLM для обеспечения robustness и безопасности. ## Где встречается - [[497. Как вы проектируете red teaming evaluation для jailbreak устойчивости…

  • wikiAgentBench

    # AgentBench ## Определение Бенчмарк для оценки LLM-агентов в 8 средах (web, CLI, SQL и др.), подверженный проблемам construct validity и…