Поиск

wikiReliability Engineering
# Reliability Engineering ## Определение Дисциплина, обеспечивающая надёжность систем в production, часть SRE (Site Reliability Engineering). ## Где встречается - [[800+ вопросов|800+ вопросов…
wikireliability
# reliability ## Определение Метрика, оценивающая стабильность и безошибочность выполнения задач агентом или системой, включая устойчивость к сбоям. ## Где встречается - [[176. Какие…
wikiinter-rater reliability
# inter-rater reliability ## Определение Метрика согласованности между оценщиками при human evaluation, важная для получения надёжных качественных метрик при A/B…
wikiWeighted Kappa
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] - [[277…
wikiReliability diagram
# Reliability diagram ## Определение График, отображающий предсказанную уверенность модели против фактической точности, используемый для визуализации калибровки. ## Где встречается - [[294. Как вы…
wikiGwet's AC1
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] ## Навигация…
wikiPercent agreement
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] ## Навигация…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить auto-scaling с учётом cost
…Проверить reliability - `reliability = (total_requests - error_requests) / total_requests * 100%` - Если ниже 99% → увеличить PDB, добавить fallback реплик, настроить предварительный…
wikiKrippendorff's Alpha
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] - [[800…
answerЧто такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)?
…Reliability diagram (диаграмма надёжности) **[[Вики/Reliability diagram\|Reliability diagram]]** — визуальный инструмент для оценки калибровки. Ось X — предсказанная [[Вики/confidence score…
wikiFleiss' Kappa
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] - [[496…
wikiInter-annotator agreement
# Inter-annotator agreement ## Определение Мера согласованности между разными аннотаторами при разметке одних и тех же данных, измеряемая через Cohen's…
wikiMurphy decomposition
# Murphy decomposition ## Определение Декомпозиция Brier score на три компонента: reliability (надёжность), resolution (разрешение) и uncertainty (неопределённость), используемая для оценки калибровки…
wikiLLM Eval Toolkit
# LLM Eval Toolkit ## Определение Набор из 8 метрик (Diversity, Reliability, Perturbation, Cascade, Consistency, Factual Grounding, Hallucination, Drift) для комплексной оценки…
wikiSRE
# SRE ## Определение Дисциплина, объединяющая разработку и эксплуатацию для обеспечения надёжности сервисов, в том числе ML. ## Где встречается - [[381. Как вы…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить spot vs on-demand для batch inference
…Практически сравнить [[Вики/cost\|стоимость]] и [[Вики/reliability\|надёжность]] выполнения batch-задач на [[Вики/Spot Instances\|spot instances]] (прерываемые) и…
answerКак вы измеряете inter-rater reliability для human evaluation?
…Как вы измеряете inter-rater reliability для human evaluation? ## Краткий тезис **reliability|Inter-rater reliability (IRR)** — это статистическая мера согласованности…
wikiConsensus
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] - [[493…
answerЧто такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)?
…Reliability Diagram (диаграмма надёжности) **[[Вики/Reliability diagram\|Reliability diagram]]** — это визуальный способ оценки калибровки. - Ось X: предсказанные [[Вики/probabilities\|вероятности…
answerКакие инструменты для агентской эвалюации вы используете?
…diversity, reliability, perturbation, cascade, consistency, grounding|factual grounding, hallucination, drift) и кастомные evaluator'ы для специфических требований (fairness, drift detection…
answerЧто такое calibration для LLM и как её измерять (ECE)?
…Учитывает как калибровку, так и остроту (sharpness). - [[Вики/reliability\|Reliability]] diagrams — график: по оси X — [[Вики/confidence score\|confidence]] bin…
answerЧто такое SLI (Service Level Indicators) для AI системы и как их собирать?
…Availability (доступность) [[Вики/reliability\|Availability]] — доля времени, в течение которого система отвечает на запросы. Формула: ``` Availability = (Total Time - Downtime) / Total…
wikiCohen's Kappa
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] - [[495…
wikiметаданные
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] - [[520…
answerЧто такое calibration в контексте reward model для RLHF?
…Калибровку улучшают методами Platt scaling или isotonic regression, а проверяют с помощью **Calibration Error|Expected Calibration Error (ECE)** и reliability…
answerКак вы определяете SLO и SLA для LLM сервиса?
…Связь с reliability engineering для ML-систем SLO/SLA — часть практик SRE (Site Reliability Engineering), адаптированных для ML. Ключевые принципы…
answerКак работает hierarchical planning для агентов (разбивка на подзадачи)?
…Преимущества hierarchical planning | Преимущество | Пояснение | |--------------|-----------| | **Interpretability** | Легко увидеть, на каком subgoal произошла ошибка. | | [[Вики/reliability\|Reliability]] | Ошибка в одном subgoal…
answerКак выглядит process operational excellence в Harness Engineering (ORR, Operational Reviews)?
…Что проверяется на [[Вики/Operational Readiness Review\|ORR]] - Архитектура — соответствует ли дизайн требованиям по надёжности ([[Вики/reliability\|reliability]]), отказоустойчивости ([[Вики…
wikihallucination
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] - [[505…
wikiReinforcement Learning from Human Feedback
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] - [[493…
answerЧто такое meta-evaluation бенчмарков (оценка оценки)?
…Дополнительные аспекты meta-evaluation Помимо четырёх основных методов, [[Вики/meta-evaluation\|meta-evaluation]] включает: - **[[Вики/reliability\|Reliability]] ([[Вики/reliability\|надёжность…
answerКак вы переключаете между уровнями представления для разных типов запросов?
…Адаптивный выбор уровня повышает [[Вики/accuracy\|точность]] ([[Вики/accuracy\|accuracy]]) и **[[Вики/reliability\|надёжность]]** ([[Вики/reliability\|reliability]]) ответа. --- ## 2. Проблема…
wikihuman-in-the-loop
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] - [[493…
answerКак вы калибруете вероятности LLM для classification задач?
…Оценить [[Вики/Expected Calibration Error\|ECE]] на тестовой части** Построить [[Вики/Reliability diagram\|reliability diagram]] (график [[Вики/confidence score\|уверенность…
answerКак измерять «коэффициент полезного делегирования» (сколько задач решено правильно)?
…делегату]]) — можно усреднять по всем задачам. - **[[Вики/reliability\|Надёжность]] ([[Вики/reliability\|Reliability]])** — [[Вики/stake\|доля]] задач, выполненных без ошибок (независимо…
answerКак проектировать request-response vs fire-and-forget для агентов?
…request-response медленнее, fire-and-forget быстрее. - [[Вики/reliability\|Надёжность]] (reliability): request-response проще сделать надёжным (retry, таймаут), fire-and…
answerКак вы A/B тестируете две версии промпта в production?
…метрик важно использовать [[Вики/inter-rater reliability\|inter-rater reliability]] ([[Вики/inter-rater reliability\|согласованность между оценщиками]]), если применяется [[Вики…
answerЧто такое statistical power evaluation и как определять размер выборки для A/B теста?
…Как вы измеряете inter-rater reliability для human evaluation\|492]] | Метрики для оценки RAG (faithfulness, relevance) | | [[493. Что такое Positional…
answerКак вы проектируете Harness для mission-critical приложения? Приведите пример с агентом для банковских переводов.
…Для банковских переводов это означает абсолютную [[Вики/reliability\|надёжность]], [[Вики/Safetysecurity\|безопасность]] и аудируемость. - [[Вики/Agentic RAG\|Agentic RAG]] — архитектура…
answerКак вы калибруете retrieval confidence для threshold-based filtering?
…Оценка качества калибровки ### 4.1 Reliability diagram (калибровочная кривая) По оси X — предсказанные [[Вики/probabilities\|вероятности]] (разбиты на бины), по…
answerКак вы тестируете агента на «неожиданные input» (не только adversarial, но и просто странные)?
…предотвращение вредоносных действий. - [[Вики/reliability\|Reliability]]: предсказуемость поведения. Эти аспекты пересекаются с вопросами оценки качества RAG (вопрос 5), безопасности LLM…
answerКак работает agent with external tool verification (проверка результатов API)?
…Этот подход повышает [[Вики/reliability\|надёжность]] агентных систем, снижает влияние «галлюцинаций» [[Вики/API\|API]] и ошибок внешних сервисов. --- ## 1. Термин…
answerЧто такое Positional bias в LLM-as-Judge и как его исправить?
…Как вы измеряете inter-rater reliability для human evaluation\|492]] | Bias в LLM-судьях: обзор (lengh bias, self-enhancement) | | [[494…
answerЧто такое graceful degradation в multi-agent системах?
…деградированные состояния маскируют корень проблемы) | Проще (стектрейс сразу) | | [[Вики/reliability\|Надёжность]] | Выше (система не падает) | Ниже (любая ошибка — сбой) | | **Пример…
answerКак вы переносите агента из прототипа в production (MLOps)?
…Главное отличие [[Вики/POC\|POC]] от [[Вики/production\|production]] — это **[[Вики/reliability\|надёжность]]** ([[Вики/agent\|агент]] не может «зависнуть» или…
answerКакие 3 книги/курса вы рекомендуете по production LLM?
…Оптимизация | Блоги и docs | На этапе доработки (latency, cost, reliability) | Рекомендуемый путь: 1. Пройти курс, чтобы быстро получить работающий прототип…
answerКак вы реализуете retry с exponential backoff для LLM API с rate limit?
…снижает нагрузку на [[Вики/API\|API]] и повышает [[Вики/reliability\|надёжность]] системы. Ключевые элементы: [[Вики/jitter\|jitter]] (случайное отклонение) для…
answerКак вы проектируете промпт для агента с инструментами?
…а потом вызывать инструменты, и критически влияет на [[Вики/reliability\|надёжность]] всего агентного пайплайна. --- ## 1. Термины: Агент, Инструменты, ReAct **[[Вики…
answerЧто такое structured output / constrained decoding и зачем это нужно?
…ключевые мотивации | Мотивация | Описание | |-----------|----------| | [[Вики/reliability\|Надёжность]] | 100%-ная гарантия, что ответ можно прогрузить `json.loads()`. Без constrained decoding % ошибок…
answerЧто такое reflection loops для агентов и как они работают?
…В контексте [[Вики/Agentic RAG\|Agentic RAG]] [[Вики/reflection loops\|reflection loops]] повышают качество и [[Вики/reliability\|надёжность]] ответов, проверяя…