Поиск

answerКак вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)?
…Как вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)? ## Краткий тезис [[Вики/Evaluation\|Оценка]] галлюцинаций в мультимодальных моделях ([[Вики…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать hallucination indicator (индикатор галлюцинаций)
…Реализовать hallucination indicator (индикатор галлюцинаций) ## 1. Цель задачи Разработать [[Вики/Prototype\|прототип]] индикатора галлюцинаций для ответов [[Вики/GPT-4o\|LLM…
answerКак вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)?
…Как вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)? ## Краткий тезис [[Вики/Evaluation\|Оценка]] галлюцинаций в мультимодальных моделях ([[Вики…
answerКак вы оцениваете качество генерации в RAG? Назовите 3 ключевые метрики.
…Как вы оцениваете качество генерации в RAG? Назовите 3 ключевые метрики. ## Краткий тезис [[Вики/Evaluation\|Оценка качества]] генерации в [[Вики…
answerКак вы оцениваете faithfulness ответа на длинном контексте (когда много информации)?
…the-loop\|человеческая оценка]] с семплированием. Ключевая [[Вики/Task\|задача]] — убедиться, что ответ не содержит галлюцинаций и опирается только на…
answerКак измерять faithfulness для long-form ответов (1000+ токенов)?
…не содержит галлюцинаций. Для длинных ответов (1000+ токенов) простая метрика всего ответа недостаточна: нужна гранулярная [[Вики/Evaluation\|оценка]] каждого [[Вики…
answerКак вы уменьшаете галлюцинации в RAG?
…Уменьшение галлюцинаций требует многоуровневого подхода: улучшение [[Вики/retrieval\|retrieval]] (чтобы контекст был релевантным), улучшение промпта (чтобы [[Вики/model\|модель]] не…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить property-based testing для LLM-агента
…модели | | Векторная БД | ChromaDB / FAISS | Хранение контекста для RAG | | Оценка галлюцинаций | LLM-as-judge (gpt-4o-mini) или RAGAS (faithfulness…
answerКак вы оцениваете качество retrieval'а в RAG-системе?
…Как вы оцениваете качество retrieval'а в RAG-системе? ## Краткий тезис [[Вики/Evaluation\|Оценка качества]] [[Вики/retrieval\|retrieval]] в [[Вики…
answerКак вы оцениваете качество синтетических данных? (Self-consistency, LLM-as-Judge)
…Как вы оцениваете качество синтетических данных? (Self-consistency, LLM-as-Judge) ## Краткий тезис Оценка качества синтетических данных — критический этап, позволяющий…
answerЧто такое meta-evaluation бенчмарков (оценка оценки)?
…Что такое meta-evaluation бенчмарков (оценка оценки)? ## Краткий тезис [[Вики/meta-evaluation\|Meta-evaluation]] ([[Вики/meta-evaluation\|оценка оценки]]) — это…
answerЧто такое error budget для AI качества и как его считать?
…сравнение с конкурентами или предыдущими версиями. - [[Вики/Human evaluation\|Экспертная оценка]]: [[Вики/crew\|команда]] договаривается о приемлемом уровне. Для [[Вики…
answerКак считать TCO (Total Cost of Ownership) для RAG/Agent системы?
…Стоимость галлюцинаций (некорректных ответов) - Потеря клиентов, репутационный ущерб, юридические иски. - Оценивается как вероятность галлюцинации × средний ущерб за случай. - Пример: в…
answerКак вы оцениваете cost-effectiveness LLM-пайплайна?
…Когда выгодно использовать дорогую [[Вики/model\|модель]] - Высокая цена [[Вики/ошибки\|ошибки]] (медицинские диагнозы, юридические консультации). - Необходимость минимального количества галлюцинаций…
answerЧто такое «cost per good answer» и как его измерять?
…должен содержать галлюцинаций — информации, которой нет в документе. Способы измерения 1. [[Вики/human-in-the-loop\|Человеческая оценка]] ([[Вики/gold…
answerКак тестировать multi-turn диалоги агента?
…Недостатки: - Не отражает реальные паттерны речи. - Риск «галлюцинаций» (некорректные факты). Рекомендация: комбинировать с [[Вики/real data\|real]] [[Вики/Recording\|recording…
answerКак вы детектируете и удаляете низкокачественные примеры из синтетического датасета?
…LLM-оценка качества примеров Самый мощный, но дорогой метод — использовать [[Вики/GPT-4o\|LLM]] (например, [[Вики/gpt-3.5-turbo…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с DSPy оптимизацией
…4. [[Вики/Evaluation\|Оценка]] [[Вики/accuracy\|faithfulness]] Если [[Вики/RAGAS\|RAGAS]] не подходит из-за [[Вики/GPT-4o\|LLM]]‑зависимости…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать A/B тест для RAG
…Faithfulness (есть оценка галлюцинаций). 3. Реализовать функции вычисления метрик: ```python def compute_rouge_l(reference, hypothesis) -> float: from rouge_score…
answerЧто такое reflection loops для агентов и как они работают?
…Архитектура reflection loop Базовая схема: ``` [Запрос пользователя] → Actor (генерация ответа) → Critic (оценка) ↓ [Ответ OK?] → да → [Вывод пользователю] нет ↓ Feedback (замечания…
answerЧто такое SLI (Service Level Indicators) для AI системы и как их собирать?
…насколько ответ соответствует предоставленному контексту (без галлюцинаций). - **Answer Relevance (релевантность ответа)**: отвечает ли ответ на заданный вопрос. - **Context Relevance (релевантность…
answerКак вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал?
…Как вы оцениваете качество retrieval'а в RAG-системе\|5]] | Оценка качества retrieval в RAG (общие метрики) | | [[25. Как вы…
answerКак вы строите DSL (Domain-Specific Language) для вашей LLM-системы?
…Оценка качества DSL Как понять, что DSL хорош? Используйте метрики: | Метрика | Что измеряет | Как считать | |---------|--------------|-------------| | Синтаксическая валидность | Доля сгенерированных скриптов…
answerКак работает RAPTOR (иерархическое суммирование для длинного контекста)?
…Как вы оцениваете качество retrieval'а в RAG-системе\|5]] | Оценка качества retrieval (метрики для RAPTOR) | | [[3 Какие стратегии chunking…
answerЧто такое Harness Engineering и чем он отличается от Prompt Engineering и MLOps?
…Инструменты для Harness Engineering | Инструмент | Назначение | Пример использования | |------------|------------|----------------------| | [[Вики/LangSmith\|LangSmith]] | Трейсинг, мониторинг, оценка | Просмотр цепочек вызовов агента, сравнение версий…
answerКак вы тестируете агента на «неожиданные input» (не только adversarial, но и просто странные)?
…5]] | Оценка качества retrieval в RAG | | [[12. Как вы фильтруете документы по метаданным в векторной БД\|12]] | Детекция галлюцинаций | | [[390…
answerКак интегрировать тестирование агентов в CI/CD?
…faithfulness, consistency, отсутствие галлюцинаций | hypothesis + LLM-асессор (RAGAS, LangChain) | | [[Вики/performance tests\|Performance tests]] (нагрузочные) | Latency, cost (токены), throughput | Locust…
answerКак вы обрабатываете запросы, на которые нет ответа в документах?
…Как вы оцениваете качество retrieval'а в RAG-системе\|5]] | Оценка качества RAG (faithfulness, галлюцинации) | | [[16. Как вы оцениваете качество…
answerЧто такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)?
…Плохая [[Вики/Calibration\|калибровка]] ведёт к неверным решениям. - [[Вики/Evaluation\|Оценка качества]] [[Вики/Calibration\|Калибровка]] — один из аспектов [[Вики/Uncertainty…
answerЧто такое learning-to-rank (LTR) и как он применяется к retrieval для LLM?
…Это повышает качество контекста, подаваемого LLM, что критически важно для точности ответов в RAG-системах и снижает риск галлюцинаций. --- ## 1…
answerКак вы A/B тестируете агентов в production?
…токенов, API-стоимость | | Качество | **Faithfulness** | Доля ответов, не содержащих галлюцинаций (фактологически верных) | Автоматический eval (LLM-as-judge) или ручная разметка…
answerКак вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику?
…остановка, выбор лучшей конфигурации | | Test (холд-аут) | 20% | Финальная оценка — не используется во время оптимизации | Правило: test-выборка должна быть…
answerКак вы проектируете бенчмарк для нового домена (медицина, юриспруденция)?
…Human baseline (оценка человека) **baseline|Human baseline** — это эталонные ответы, подготовленные экспертами. Он нужен для: - Сравнения качества системы с человеческим…
answerЧто такое Hypothetical Document Embeddings (HyDE) и зачем?
…Как вы оцениваете качество retrieval'а в RAG-системе\|5]] | Оценка retrieval (MRR, Recall) | | [[10. Что такое Self-RAG и…
answerКак вы делаете synthetic data для редких языков (не английский)?
…Минусы - LLM может плохо знать редкий язык (особенно если он мало представлен в обучении). - Риск галлюцинаций (неверные факты). - Дорого (если…
answerКак вы делаете synthetic eval (генерация тестовых вопросов по документам)?
…Synthetic eval (синтетическая оценка) [[Вики/synthetic evaluation\|Synthetic eval]] — это процесс создания оценочного датасета (вопросы + ответы) с помощью [[Вики/LLM…
answerКак вы калибруете retrieval confidence для threshold-based filtering?
…Как вы калибруете retrieval confidence для threshold-based filtering? ## Краткий тезис Retrieval confidence — это rating|числовая оценка (score), которую поисковая…
answerКак комбинировать LLM с симуляторами физики (digital twins)?
…ответ LLM должен строго соответствовать данным симуляции, без галлюцинаций. --- ## 6. Итеративный процесс: сценарии «что если» LLM может самостоятельно предлагать и…
answerКак вы генерируете synthetic данные для instruction tuning?
…Критерии: [[Вики/Helpfulness Harmlessness\|полезность]], понятность, сложность, [[Вики/No hallucination\|отсутствие галлюцинаций]]. - **[[Вики/reward model\|Reward model]]** ([[Вики/reward model…
answerКак вы генерируете hard negative примеры для retrieval обучения?
…Минусы - Дорого ([[Вики/LLM call\|вызов LLM]] для каждого запроса). - Риск галлюцинаций — сгенерированный документ может случайно оказаться релевантным. - Требует тщательного…
answerКак работают verifier models для agentic RAG и зачем они нужны?
…Вы увидите, что verifier снижает количество галлюцинаций (faithfulness повышается на 15–20%) и уменьшает число шагов агента за счёт раннего…
answerКак вы проверяете, что новая версия модели не сломала старые кейсы?
…Используются как автоматические, так и LLM-асистированные метрики. | Метрика | Что измеряет | Инструмент | |---------|--------------|------------| | **Faithfulness** | Нет ли галлюцинаций (фактов, не подтверждённых контекстом…
answerКак вы оцениваете, сколько синтетических данных нужно для fine-tuning (power analysis)?
…Перед экспериментом проверьте: - Репрезентативность — данные должны покрывать реальные сценарии использования. - **[[Вики/No hallucination\|Отсутствие галлюцинаций]]** — факты в синтетических примерах должны…
answerКак моделировать экономику агентов с ограниченными бюджетами на API вызовы?
…выбирает [[Вики/API\|API]] с максимальным значением `[[Вики/Evaluation\|оценка]] + константа * sqrt([[Вики/мониторинг\|log]](t) / n_i)`, где t…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить дашборд для failures
…Бюджет времени (оценка) | Этап | Время | |------|-------| | Этап 1: Определение метрик и источников данных | 30 мин | | Этап 2: Сбор и подготовка данных…
answerКак делать rollback промпта (auto-rollback при деградации метрик)?
…полностью соответствуют контексту (без галлюцинаций). | Онлайн | Падение >5% относительно baseline | | **Answer Relevance** | Релевантность ответа запросу (оценка LLM-судьёй). | Онлайн | Падение…
answerКак делать property-based testing для агентов?
…Как вы оцениваете качество retrieval'а в RAG-системе\|5]] | Оценка retrieval – база для свойства No hallucination | | [[10. Что такое…
answerЧто такое тест-тайм компьютинг (Test-Time Compute) и чем он отличается от обычного инференса?
…Если [[Вики/Evaluation\|оценка]] низкая — повторный проход со сдвигом внимания. ### 5.3. Latent Bottleneck с итеративным уточнением Скрытый [[Вики/embedding…
answerКак вы определяете SLO и SLA для LLM сервиса?
…логирование ответов, асинхронная оценка через LLM-as-judge (например, GPT-4), запись результатов в Prometheus. - Дашборды — Grafana: графики p50/p95…
answerКак работает weak supervision для synthetic данных (создание правил разметки)?
…Для сложных генеративных задач (например, оценка креативности) LFs могут быть слабыми. --- ## 11. Связь с Agentic RAG В контексте [[Вики/Agentic…