Поиск

  • wikiLLM-оценка риска

    # LLM-оценка риска ## Определение Использование LLM для классификации действия агента как опасного до его выполнения, обеспечивая дополнительный уровень безопасности. ## Где…

  • wikiruGPT-3.5

    …Какие LLM для русского языка вы используете|78. Какие LLM для русского языка вы используете]] - [[138. Что такое «оценка с…

  • wikiBIG-bench

    # BIG-bench ## Определение Набор бенчмарков для оценки LLM, включающий задачи на креативность и проверку construct validity модели. ## Где встречается - [[172…

  • wikiAgentBench

    # AgentBench ## Определение Бенчмарк для оценки LLM-агентов в 8 средах (web, CLI, SQL и др.), подверженный проблемам construct validity и…

  • wikiMETEOR

    …Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной]] - [[178. Чем отличается эвалюация LLM от эвалюации…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать LLM-as-Judge с калибровкой

    …Реализация базового LLM-as-Judge (оценка времени: 1.5 часа) Действия 1. Написать класс `LLMJudge` с методами: - `__init__(self, [[Вики…

  • wikilm-evaluation-harness

    # lm-evaluation-harness ## Определение Инструмент EleutherAI для унифицированного запуска бенчмарков, сбора статистики и проверки contamination при оценке LLM. ## Где встречается…

  • answerЧем отличается эвалюация LLM от эвалюации традиционных ML моделей?

    …Метрики для LLM (оценка качества генерации) [[Вики/LLM-as-a-judge\|Оценка LLM]] делится на три уровня: ### 4.1 Автоматические…

  • answerЧто такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной?

    …Когда использовать RLHF evaluation, а когда обычную | Ситуация | Рекомендуемый подход | |----------|----------------------| | Быстрый прототип, baseline | Обычная оценка (Likert, BLEU) | | Fine-tuning LLM

  • wikiHellaSwag

    …Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[655. Что такое SwiGLU и почему он лучше ReLU в LLM|655. Что…

  • answerКак вы проводите A/B тест метрик качества (не бизнес-метрик)?

    …calling\|OpenAI API]] (или [[Вики/LLM\|локальная LLM]]) - [[Вики/dataset\|Датасет]] с ручными оценками (можно взять из [[Вики/RAGAS\|RAGAS…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать Tree of Thoughts

    …генерация мыслей, их оценка через LLM, стратегия поиска и итоговая агрегация ответа. Сравнить качество с базовым Chain-of-Thought (CoT…

  • wikiLLM confidence score

    # LLM confidence score ## Определение Метрика, отражающая степень уверенности модели в сгенерированном ответе. Используется для управления поведением агента, например, для остановки…

  • wikiToxicity score

    …Как вы проектируете canary deployment для LLM модели|382. Как вы проектируете canary deployment для LLM модели]] ## Навигация - [[00. Индекс…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сгенерировать synthetic датасет для RAG

    …FAISS | | 677 | Оценка качества эмбеддингов для retrieval | | 789 | Оптимизация стоимости API при генерации датасетов | | 891 | Сравнение локальных LLM (Llama, Mistral…

  • wikiLLM pipeline

    # LLM pipeline ## Определение Цепочка компонентов (RAG, кэш, модель, валидация) для обработки запроса к LLM; оценка cost-effectiveness учитывает каждый этап…

  • answerКак вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)?

    …калибровка с human judgments [[Вики/Calibration\|Калибровка]] — процесс сравнения оценок LLM-судьи с оценками человека на золотом стандарте ([[Вики/gold…

  • wikiPlan deviation score

    # Plan deviation score ## Определение Оценка того, насколько итоговый план агента отличается от ожидаемого после adversarial-атаки, используется для тестирования робастности…

  • wikiLLM-as-a-judge

    …Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной]] - [[139. Как вы оцениваете cost-effectiveness LLM

  • answerКак вы оцениваете качество синтетических данных? (Self-consistency, LLM-as-Judge)

    …Self-consistency (проверка согласованности генераций на один и тот же запрос), **LLM-as-Judge** (автоматическая оценка сильным LLM), **Human validation…

  • wikihelm

    …Как вы управляете секретами (API keys для LLM) в Kubernetes]] - [[498. Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что…

  • wikievaluator-based quality assessment

    # evaluator-based quality assessment ## Определение Оценка качества LLM с помощью модели-оценщика, а не простых автоматических метрик, что повышает точность…

  • wikired teaming evaluation

    # red teaming evaluation ## Определение Оценка устойчивости LLM к атакам, проводимая в рамках red teaming. Обычно включает набор сценариев атак и…

  • wikiDownstream quality

    # Downstream quality ## Определение Оценка качества синтетических данных путём обучения модели на них и проверки на реальных задачах. ## Где встречается - [[682…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать cost-aware routing на основе классификатора сложности (BERT)

    …Связанные вопросы из базы знаний | Вопрос | Тема | |--------|------| | 15 | Выбор модели LLM под задачу | | 42 | Оценка стоимости вызовов LLM | | 78 | Создание…

  • wikiPlan quality

    # Plan quality ## Определение Оценка правильности декомпозиции задачи на подзадачи, выполняемая экспертом или LLM-as-judge. ## Где встречается - [[575. Как работает…

  • wikiswap positions

    …Позволяет выявить смещение в оценках LLM-судьи. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • answerКак вы калибруете LLM-судью под человеческие оценки?

    …парах (сырая [[Вики/LLM-as-a-judge\|оценка LLM]] → [[Вики/human-in-the-loop\|человеческая оценка]]). Позволяет перекалибровать [[Вики/probabilities…

  • answerЧто такое meta-evaluation бенчмарков (оценка оценки)?

    …Вики/LLM\|LLM]]. --- ## 1. Определение meta-evaluation и её необходимость [[Вики/meta-evaluation\|Meta-evaluation]] ([[Вики/meta-evaluation\|оценка оценки…

  • wikiWeighted Kappa

    …учитывающая степень расхождений между оценками. Используется как метрика согласия (inter-rater reliability) и при калибровке LLM-as-Judge. ## Где встречается…

  • wikiresponse_quality_score

    # response_quality_score ## Определение Числовая метрика, записываемая в Prometheus, которая оценивает качество ответа LLM с привязкой к версии промпта. Используется…

  • wikiHumanEval

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[596. Как работает model stealing…

  • answerЧто такое pairwise comparison vs scalar rating? Когда что использовать?

    …один клик) | | Пример в RAG | Оценка двух версий ответа LLM на один запрос | Оценка каждого ответа по шкале «полезно/бесполезно…

  • wikiDPIA

    # DPIA ## Определение Оценка влияния на защиту данных (Data Protection Impact Assessment), обязательная для систем, обрабатывающих PII в больших масштабах. ## Где…

  • wikiKendall's Tau

    …Используется для оценки согласованности судей или reward моделей с человеческими оценками. ## Где встречается - [[132. Как вы калибруете LLM-судью под…

  • answerКак вы оцениваете качество language representation для задачи?

    …Extrinsic evaluation (внешняя оценка) Проводится на вашей задаче: фиксируем [[Вики/LLM\|LLM]] (например, [[Вики/LLM\|GPT-4]]), [[Вики/Agent Pipeline…

  • wikiSpearman correlation

    # Spearman correlation ## Определение Мера монотонной связи между ранжированными переменными, часто применяемая для оценки согласованности оценок LLM-судьи с человеческими. ## Где…

  • wikiGPT-2

    …Какие LLM для русского языка вы используете|78. Какие LLM для русского языка вы используете]] - [[138. Что такое «оценка с…

  • wikiH2O

    …с наибольшими оценками внимания для уменьшения потребления памяти. ## Где встречается - [[626. Как работают современные long-context LLM (GPT-4 1M…

  • wikiCost Analysis

    # Cost Analysis ## Определение Оценка экономической эффективности работы агента или системы с учётом стоимости шагов, токенов и вызовов LLM. Помогает выявить…

  • wikicontrol

    …A/B тестах и оценках. ## Где встречается - [[430. Как вы делаете canary analysis для новой LLM модели|430. Как вы…

  • wikigated relevance

    # gated relevance ## Определение Многоуровневая (градированная) оценка релевантности документа, используемая в метриках вроде NDCG, где степень релевантности выражается числом, а не…

  • answerКак вы боретесь с «бесконечным циклом» агента в Agentic RAG?

    …Agentic RAG и проблема бесконечного цикла Agentic RAG — архитектура, в которой LLM-агент самостоятельно планирует последовательность действий (поиск документов, call…

  • answerЧто такое Positional bias в LLM-as-Judge и как его исправить?

    …Зачем нужен [[Вики/LLM-as-a-judge\|LLM-судья]] - [[Вики/human-in-the-loop\|Ручная оценка]] дорога и медленна. - Автоматические…

  • answerКак вы оцениваете alignment модели с человеческими ценностями без gold standard?

    …Alignment (выравнивание) и проблема gold standard [[Вики/safety alignment\|Alignment]] — это процесс настройки модели ([[Вики/LLM\|LLM]], агента) так, чтобы…

  • answerЧто такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?

    …Как вы AB тестируете две версии промпта в production\|502]] | LLM-as-a-judge и автоматическая оценка | | [[504. Как вы…

  • wikipost-hoc correction

    # post-hoc correction ## Определение Коррекция смещения в оценках после их получения, например, через линейную регрессию по длине ответа или коррекция…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Полная платформа для оценки RAG

    Оценка RAG | RAGAS, LangChain, HuggingFace Hub | Расчёт метрик: faithfulness, relevancy, context precision, answer correctness | | RAG-система | LangChain, FAISS, Ollama (LLM

  • wikisynthetic evaluation

    # synthetic evaluation ## Определение Метод автоматической генерации тестовых вопросов и эталонных ответов с помощью LLM для оценки RAG-систем или агентов…

  • answerКак вы оцениваете faithfulness RAG-ответа в production автоматически?

    …Альтернативы LLM-as-Judge — назовите 3 и их ограничения.\|133]] | Оценка answer relevance | --- ## Навигация (Obsidian) - Предыдущий: [[133. Альтернативы LLM-as…