Поиск

answerКак вы оцениваете качество после fine-tuning?
…LLM-as-a-judge **[[Вики/LLM-as-a-judge\|LLM-as-a-judge]]** — подход, при котором сильная [[Вики/GPT-4o…
answerКак вы тестируете агентов? (сложно из-за стохастичности)
…Оценка через LLM-as-a-judge Финальный ответ агента сложно проверить assert'ом. Используем **LLM-as-a-judge** — другую LLM…
answerКак вы проверяете, что новая версия модели не сломала старые кейсы?
…Для [[Вики/LLM-as-a-judge\|LLM-as-a-Judge]] можно использовать среднюю оценку: ухудшение на 0.3 балла и…
wikiStoryBench
# StoryBench ## Определение Бенчмарк для оценки сюжетной креативности моделей, использующий LLM-as-a-judge для автоматической оценки качества сгенерированных историй. ## Где…
wikiGPT-4 eval
…модель (например, GPT-4) выступает в роли судьи (LLM-as-a-judge) для автоматической оценки. ## Где встречается - [[332. Как работает…
answerКак вы делаете A/B тестирование двух моделей в production?
…Подключить [[Вики/LLM-as-a-judge\|LLM-as-a-judge]] ([[Вики/gpt-3.5-turbo\|GPT-4]]) для оценки качества…
wikiLLM-as-a-judge
# LLM-as-a-judge ## Определение Метод автоматической оценки качества генерации, где большая языковая модель (например, GPT-4) сравнивает ответы с…
answerКак вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами?
…Применяем **[[Вики/LLM-as-a-judge\|LLM-as-a-judge]]**: - Отправляем диалог мощной [[Вики/GPT-4o\|LLM]] с промптом: «Оцени…
answerЧто такое LiveIdeaBench и для чего он нужен?
…Для автоматизации часто используется **[[Вики/LLM-as-a-judge\|LLM-as-a-judge]]** (например, [[Вики/LLM\|GPT-4]]). 4. [[Вики…
answerКак вы калибруете LLM-судью под человеческие оценки?
…Термин «LLM-судья» и зачем его калибровать **[[Вики/LLM-as-a-judge\|LLM-судья]] ([[Вики/LLM-as-a-judge\|LLM…
answerЧто такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной?
…RLHF evaluation vs LLM-as-a-Judge [[Вики/LLM-as-a-judge\|LLM-as-a-Judge]] — это подход, где сама…
answerКак вы A/B тестируете две версии промпта в production?
…Как вы используете LLM-as-a-judge для оценки качества ответов\|135]] | LLM-as-a-Judge как метрика в A…
answerКак измерять faithfulness для long-form ответов (1000+ токенов)?
…Затем каждое утверждение верифицировать по контексту (можно снова через [[Вики/NLI\|NLI]] или [[Вики/LLM-as-a-judge\|LLM-as…
answerКак вы проводите A/B тест метрик качества (не бизнес-метрик)?
…убедиться, что она не хуже старой (или лучше). - Выбрать лучший [[Вики/prompt\|промпт]] для [[Вики/LLM-as-a-judge\|LLM…
wikiTruLens
# TruLens ## Определение TruLens — инструмент для оценки и мониторинга RAG-приложений, использующий LLM-as-a-judge для метрик groundedness, answer relevance…
answerКогда DSPy *не* подходит? Назовите 3 сценария.
…Что значит «стихотворение хорошее»? Время чтения? Рифмы? Эмоциональная окраска? Даже если вы напишете [[Вики/LLM-as-a-judge\|LLM-as…
answerЧто такое SLI (Service Level Indicators) для AI системы и как их собирать?
…Сбор [[Вики/SLA\|SLI]] требует комбинации инструментов мониторинга ([[Вики/Prometheus client\|Prometheus]], [[Вики/OpenTelemetry\|OpenTelemetry]]), логирования, [[Вики/LLM-as-a…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с cost-aware routing
…Для замера качества используем оценку ответа [[Вики/gpt-3.5-turbo\|GPT-4]] ([[Вики/LLM-as-a-judge\|LLM-as…
answerКак вы оцениваете cost-effectiveness LLM-пайплайна?
…85% (по оценке LLM-as-a-judge). Расчёт - Затраты на один запрос: (500 * $0.00015/1000) + (200 * $0.0006/1000…
answerКак интегрировать тестирование агентов в CI/CD?
…Используем **[[Вики/Hypothesis\|hypothesis]]** ([[Вики/generation\|генерация]] запросов) + [[Вики/LLM-as-a-judge\|LLM-асессор]] ([[Вики/RAGAS\|RAGAS]], [[Вики/agent…
answerКак вы оцениваете креативность LLM в production?
…В [[Вики/production\|production]] применяется комбинация автоматических метрик ([[Вики/embedding\|эмбеддинги]], [[Вики/LLM-as-a-judge\|LLM-as-judge]], [[Вики…
answerКак вы оцениваете качество синтетических данных? (Self-consistency, LLM-as-Judge)
…LLM-as-Judge **[[Вики/LLM-as-a-judge\|LLM-as-Judge]]** — использование сильной [[Вики/GPT-4o\|LLM]] ([[Вики/gpt-3…
answerПочему LLM-as-Judge может быть biased? Назовите 3 основных bias и как их детектировать.
…Почему LLM-as-Judge может быть biased? Назовите 3 основных bias и как их детектировать. ## Краткий тезис **[[Вики/LLM-as…
answerКак вы бенчмарките DSPy против ручного промпт-инжиниринга в production?
…если вы используете LLM-as-a-judge для всех логов, это может быть дорого. Сэмплируйте 10-20%. - Синхронизация контекста: для…
answerЧто такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?
…Как вы AB тестируете две версии промпта в production\|502]] | LLM-as-a-judge и автоматическая оценка | | [[504. Как вы…
answerКак тестировать промпты (prompt regression testing)?
…изменение на 10% косинусной дистанции); - для [[Вики/LLM-as-a-judge\|LLM-as-Judge]]: ε = 1 балл по 5-балльной…
answerКак вы оцениваете faithfulness RAG-ответа в production автоматически?
…Альтернативы RAGAS [[Вики/LLM-as-a-judge\|LLM-as-a-Judge]] — использование той же LLM (например, GPT-4) для оценки…
answerЧто такое Path-level evaluation для Agentic RAG и чем оно лучше token-level?
…Определить эталонные траектории — вручную или с помощью LLM-as-a-judge (попросить LLM сгенерировать идеальный план). 3. Сравнить фактическую и…
answerКак работают verifier models для agentic RAG и зачем они нужны?
…вместо повторного вызова большой [[Вики/GPT-4o\|LLM]] для самопроверки ([[Вики/Consensus\|self-consistency]], [[Вики/LLM-as-a-judge\|LLM…
answerКак вы оцениваете faithfulness без ground truth (если нет правильного ответа)?
…Что такое LLM-as-a-judge\|25]] | LLM как судья | --- ## Навигация (Obsidian) - Предыдущий: [[507. Что такое calibration в контексте reward…
answerКак управлять версиями промптов в production (best practices)?
…запуск на золотых запросах, сравнение с эталонными ответами (например, с помощью [[Вики/LLM-as-a-judge\|LLM-as-a-judge…
answerАльтернативы LLM-as-Judge — назовите 3 и их ограничения?
…Альтернативы LLM-as-Judge — назовите 3 и их ограничения? ## Краткий тезис [[Вики/LLM-as-a-judge\|LLM-as-Judge]] — мощный…
answerКаковы 3 главных bias-эффекта LLM-as-Judge и как их детектировать?
…Каковы 3 главных bias-эффекта LLM-as-Judge и как их детектировать? ## Краткий тезис **[[Вики/LLM-as-a-judge\|LLM…
answerКак вы делаете agent with iterative refinement (улучшение ответа через обратную связь)?
…контекста (особенно при большом объёме). [[Вики/LLM-as-a-judge\|LLM-as-a-Judge]] (LLM в роли судьи) позволяет смоделировать…
answerКак вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)?
…Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)? ## Краткий тезис **[[Вики/LLM-as-a…
answerКакие метрики вы мониторите для LLM в production?
…Методы обнаружения: - [[Вики/LLM-as-a-judge\|LLM-as-a-Judge]]: другой LLM проверяет утверждения на противоречие контексту (часть RAGAS…
answerКак вы оцениваете cost-effectiveness LLM-пайплайна?
…Основные подходы: - Автоматические метрики: [[Вики/RAGAS\|RAGAS]] ([[Вики/accuracy\|Faithfulness]], [[Вики/Answer quality\|Answer Relevance]]), [[Вики/BERTscore\|BERTScore]]. - **[[Вики/LLM…
answerКак вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)?
…Использует **[[Вики/LLM-as-a-judge\|LLM-as-Judge]]** для оценки качества ответов. ### 3.1 Структура датасета - Изображения: 96 изображений…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать LLM-as-Judge с калибровкой
…Цель задачи Разработать и откалибровать систему на основе [[Вики/GPT-4o\|LLM]], выступающую в [[Вики/Roles\|роли]] судьи ([[Вики/LLM…
answerКак вы генерируете synthetic данные для instruction tuning?
…5. [[Вики/Filtering\|Filtering]] — [[Вики/duplicate detection\|дедупликация]], [[Вики/Check\|проверка]] длины, [[Вики/LLM-as-a-judge\|LLM-as-judge…
answerКак работает LLM-as-judge и почему он biased?
…зачем и как работает [[Вики/LLM-as-Judge\|LLM-as-judge]] — это использование [[Вики/LLM-as-a-judge\|LLM в…
answerКак вы оцениваете качество retrieval'а в RAG-системе?
…Термин «LLM-as-a-judge» Использование одной LLM (например, GPT-4) для оценки ответов другой LLM. --- ### 2.1 Faithfulness (достоверность…
answerКак автоматизировать test generation для агента?
…Для проверки корректности можно использовать **LLM-as-a-judge** — другую LLM, которая оценивает, правильно ли агент обработал синтетический запрос. **Пример…
answerЧто такое Positional bias в LLM-as-Judge и как его исправить?
…LLM-as-Judge **[[Вики/LLM-as-a-judge\|LLM-as-Judge]]** — это подход, при котором [[Вики/LLM\|большая языковая модель…
answerКак вы генерируете синтетический датасет для instruction tuning? Self-instruct, Evol-Instruct?
…Оба метода требуют тщательной фильтрации ([[Вики/LLM-as-a-judge\|LLM-as-judge]], [[Вики/rules\|правила]], [[Вики/duplicate detection\|дедупликация…
answerЧто такое «cost per good answer» и как его измерять?
…2. **[[Вики/LLM-as-a-judge\|LLM-as-Judge]]** — автоматическая [[Вики/LLM-as-a-judge\|оценка с помощью LLM]] (например…
answerКак вы делаете synthetic data generation для редких классов в датасете?
…сравниваем распределение признаков синтетики и реальных данных (например, KS-тест для числовых, chi-square для категориальных). - [[Вики/LLM-as-a…
answerЧто такое statistical power evaluation и как определять размер выборки для A/B теста?
…ответа]] ([[Вики/Human evaluation\|human evaluation]] или [[Вики/LLM-as-a-judge\|LLM-as-judge]]), [[Вики/accuracy\|faithfulness]], [[Вики/Answer…
answerЧто такое jailbreak taxonomy (полная классификация)?
…перплексией часто являются атаками) и **[[Вики/LLM-as-a-judge\|LLM-as-a-judge]]** (другая [[Вики/model\|модель]] оценивает, безопасен…
answerЧто такое error budget для AI качества и как его считать?
…собирать логи ответов, прогонять через LLM-as-a-judge (например, GPT-4) для оценки faithfulness, агрегировать в SLI. Лучшие практики…