Поиск

wikiLLM-as-a-judge
…Как вы измеряете дрейф модели (model drift) для LLM]] - [[178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей|178…
answerКак вы A/B тестируете две версии промпта в production?
…Как вы используете LLM-as-a-judge для оценки качества ответов\|135]] | LLM-as-a-Judge как метрика в A…
answerЧем отличается эвалюация LLM от эвалюации традиционных ML моделей?
…Вместо статистических тестов распределений (penalty|KL divergence, PSI) здесь используются метрики faithfulness, answer relevance и согласованность. ## 1. Термины: эвалюация, LLM…
answerЧто такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?
…Как IRT применяется к LLM эвалюации Традиционная эвалюация [[Вики/LLM\|LLM]] использует сырую [[Вики/accuracy\|accuracy]] ([[Вики/stake\|доля]] правильных…
answerКакие инструменты для агентской эвалюации вы используете?
…Какие инструменты для агентской эвалюации вы используете? ## Краткий тезис Агентская эвалюация — это процесс измерения качества работы AI-агентов: их способности…
answerКак вы измеряете дрейф модели (model drift) для LLM?
…Какие инструменты для агентской эвалюации вы используете\|176]] | Мониторинг LLM в production | | [[178. Чем отличается эвалюация LLM от эвалюации традиционных…
answerКак вы делаете synthetic eval (генерация тестовых вопросов по документам)?
…автоматическая эвалюация RAG [[Вики/Synthetic dataset\|Синтетический датасет]] используется для измерения метрик [[Вики/RAG\|RAG]] без ручной разметки: - **[[Вики/accuracy…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…LLM-AS-A-JUDGE И ЭВАЛЮАЦИЯ (10 вопросов) *Без этого вы не сможете доказать, что ваша система работает. 2026 — год…