Поиск

wikiLLM-оценка риска
# LLM-оценка риска ## Определение Использование LLM для классификации действия агента как опасного до его выполнения, обеспечивая дополнительный уровень безопасности. ## Где…
wikiruGPT-3.5
…Какие LLM для русского языка вы используете|78. Какие LLM для русского языка вы используете]] - [[138. Что такое «оценка с…
wikiBIG-bench
# BIG-bench ## Определение Набор бенчмарков для оценки LLM, включающий задачи на креативность и проверку construct validity модели. ## Где встречается - [[172…
wikiAgentBench
# AgentBench ## Определение Бенчмарк для оценки LLM-агентов в 8 средах (web, CLI, SQL и др.), подверженный проблемам construct validity и…
wikiMETEOR
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной]] - [[178. Чем отличается эвалюация LLM от эвалюации…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать LLM-as-Judge с калибровкой
…Реализация базового LLM-as-Judge (оценка времени: 1.5 часа) Действия 1. Написать класс `LLMJudge` с методами: - `__init__(self, [[Вики…
wikilm-evaluation-harness
# lm-evaluation-harness ## Определение Инструмент EleutherAI для унифицированного запуска бенчмарков, сбора статистики и проверки contamination при оценке LLM. ## Где встречается…
answerЧем отличается эвалюация LLM от эвалюации традиционных ML моделей?
…Метрики для LLM (оценка качества генерации) [[Вики/LLM-as-a-judge\|Оценка LLM]] делится на три уровня: ### 4.1 Автоматические…
answerЧто такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной?
…Когда использовать RLHF evaluation, а когда обычную | Ситуация | Рекомендуемый подход | |----------|----------------------| | Быстрый прототип, baseline | Обычная оценка (Likert, BLEU) | | Fine-tuning LLM…
wikiHellaSwag
…Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[655. Что такое SwiGLU и почему он лучше ReLU в LLM|655. Что…
answerКак вы проводите A/B тест метрик качества (не бизнес-метрик)?
…calling\|OpenAI API]] (или [[Вики/LLM\|локальная LLM]]) - [[Вики/dataset\|Датасет]] с ручными оценками (можно взять из [[Вики/RAGAS\|RAGAS…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать Tree of Thoughts
…генерация мыслей, их оценка через LLM, стратегия поиска и итоговая агрегация ответа. Сравнить качество с базовым Chain-of-Thought (CoT…
wikiLLM confidence score
# LLM confidence score ## Определение Метрика, отражающая степень уверенности модели в сгенерированном ответе. Используется для управления поведением агента, например, для остановки…
wikiToxicity score
…Как вы проектируете canary deployment для LLM модели|382. Как вы проектируете canary deployment для LLM модели]] ## Навигация - [[00. Индекс…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сгенерировать synthetic датасет для RAG
…FAISS | | 677 | Оценка качества эмбеддингов для retrieval | | 789 | Оптимизация стоимости API при генерации датасетов | | 891 | Сравнение локальных LLM (Llama, Mistral…
wikiLLM pipeline
# LLM pipeline ## Определение Цепочка компонентов (RAG, кэш, модель, валидация) для обработки запроса к LLM; оценка cost-effectiveness учитывает каждый этап…
answerКак вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)?
…калибровка с human judgments [[Вики/Calibration\|Калибровка]] — процесс сравнения оценок LLM-судьи с оценками человека на золотом стандарте ([[Вики/gold…
wikiPlan deviation score
# Plan deviation score ## Определение Оценка того, насколько итоговый план агента отличается от ожидаемого после adversarial-атаки, используется для тестирования робастности…
wikiLLM-as-a-judge
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной]] - [[139. Как вы оцениваете cost-effectiveness LLM…
answerКак вы оцениваете качество синтетических данных? (Self-consistency, LLM-as-Judge)
…Self-consistency (проверка согласованности генераций на один и тот же запрос), **LLM-as-Judge** (автоматическая оценка сильным LLM), **Human validation…
wikihelm
…Как вы управляете секретами (API keys для LLM) в Kubernetes]] - [[498. Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что…
wikievaluator-based quality assessment
# evaluator-based quality assessment ## Определение Оценка качества LLM с помощью модели-оценщика, а не простых автоматических метрик, что повышает точность…
wikired teaming evaluation
# red teaming evaluation ## Определение Оценка устойчивости LLM к атакам, проводимая в рамках red teaming. Обычно включает набор сценариев атак и…
wikiDownstream quality
# Downstream quality ## Определение Оценка качества синтетических данных путём обучения модели на них и проверки на реальных задачах. ## Где встречается - [[682…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать cost-aware routing на основе классификатора сложности (BERT)
…Связанные вопросы из базы знаний | Вопрос | Тема | |--------|------| | 15 | Выбор модели LLM под задачу | | 42 | Оценка стоимости вызовов LLM | | 78 | Создание…
wikiPlan quality
# Plan quality ## Определение Оценка правильности декомпозиции задачи на подзадачи, выполняемая экспертом или LLM-as-judge. ## Где встречается - [[575. Как работает…
wikiswap positions
…Позволяет выявить смещение в оценках LLM-судьи. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
answerКак вы калибруете LLM-судью под человеческие оценки?
…парах (сырая [[Вики/LLM-as-a-judge\|оценка LLM]] → [[Вики/human-in-the-loop\|человеческая оценка]]). Позволяет перекалибровать [[Вики/probabilities…
answerЧто такое meta-evaluation бенчмарков (оценка оценки)?
…Вики/LLM\|LLM]]. --- ## 1. Определение meta-evaluation и её необходимость [[Вики/meta-evaluation\|Meta-evaluation]] ([[Вики/meta-evaluation\|оценка оценки…
wikiWeighted Kappa
…учитывающая степень расхождений между оценками. Используется как метрика согласия (inter-rater reliability) и при калибровке LLM-as-Judge. ## Где встречается…
wikiresponse_quality_score
# response_quality_score ## Определение Числовая метрика, записываемая в Prometheus, которая оценивает качество ответа LLM с привязкой к версии промпта. Используется…
wikiHumanEval
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[596. Как работает model stealing…
answerЧто такое pairwise comparison vs scalar rating? Когда что использовать?
…один клик) | | Пример в RAG | Оценка двух версий ответа LLM на один запрос | Оценка каждого ответа по шкале «полезно/бесполезно…
wikiDPIA
# DPIA ## Определение Оценка влияния на защиту данных (Data Protection Impact Assessment), обязательная для систем, обрабатывающих PII в больших масштабах. ## Где…
wikiKendall's Tau
…Используется для оценки согласованности судей или reward моделей с человеческими оценками. ## Где встречается - [[132. Как вы калибруете LLM-судью под…
answerКак вы оцениваете качество language representation для задачи?
…Extrinsic evaluation (внешняя оценка) Проводится на вашей задаче: фиксируем [[Вики/LLM\|LLM]] (например, [[Вики/LLM\|GPT-4]]), [[Вики/Agent Pipeline…
wikiSpearman correlation
# Spearman correlation ## Определение Мера монотонной связи между ранжированными переменными, часто применяемая для оценки согласованности оценок LLM-судьи с человеческими. ## Где…
wikiGPT-2
…Какие LLM для русского языка вы используете|78. Какие LLM для русского языка вы используете]] - [[138. Что такое «оценка с…
wikiH2O
…с наибольшими оценками внимания для уменьшения потребления памяти. ## Где встречается - [[626. Как работают современные long-context LLM (GPT-4 1M…
wikiCost Analysis
# Cost Analysis ## Определение Оценка экономической эффективности работы агента или системы с учётом стоимости шагов, токенов и вызовов LLM. Помогает выявить…
wikicontrol
…A/B тестах и оценках. ## Где встречается - [[430. Как вы делаете canary analysis для новой LLM модели|430. Как вы…
wikigated relevance
# gated relevance ## Определение Многоуровневая (градированная) оценка релевантности документа, используемая в метриках вроде NDCG, где степень релевантности выражается числом, а не…
answerКак вы боретесь с «бесконечным циклом» агента в Agentic RAG?
…Agentic RAG и проблема бесконечного цикла Agentic RAG — архитектура, в которой LLM-агент самостоятельно планирует последовательность действий (поиск документов, call…
answerЧто такое Positional bias в LLM-as-Judge и как его исправить?
…Зачем нужен [[Вики/LLM-as-a-judge\|LLM-судья]] - [[Вики/human-in-the-loop\|Ручная оценка]] дорога и медленна. - Автоматические…
answerКак вы оцениваете alignment модели с человеческими ценностями без gold standard?
…Alignment (выравнивание) и проблема gold standard [[Вики/safety alignment\|Alignment]] — это процесс настройки модели ([[Вики/LLM\|LLM]], агента) так, чтобы…
answerЧто такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?
…Как вы AB тестируете две версии промпта в production\|502]] | LLM-as-a-judge и автоматическая оценка | | [[504. Как вы…
wikipost-hoc correction
# post-hoc correction ## Определение Коррекция смещения в оценках после их получения, например, через линейную регрессию по длине ответа или коррекция…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Полная платформа для оценки RAG
…Оценка RAG | RAGAS, LangChain, HuggingFace Hub | Расчёт метрик: faithfulness, relevancy, context precision, answer correctness | | RAG-система | LangChain, FAISS, Ollama (LLM…
wikisynthetic evaluation
# synthetic evaluation ## Определение Метод автоматической генерации тестовых вопросов и эталонных ответов с помощью LLM для оценки RAG-систем или агентов…
answerКак вы оцениваете faithfulness RAG-ответа в production автоматически?
…Альтернативы LLM-as-Judge — назовите 3 и их ограничения.\|133]] | Оценка answer relevance | --- ## Навигация (Obsidian) - Предыдущий: [[133. Альтернативы LLM-as…