English translation is not available yet. Showing Russian content.
LLM-as-a-judge
LLM-as-a-judge
Определение
Метод автоматической оценки качества генерации, где большая языковая модель (например, GPT-4) сравнивает ответы с эталоном или критериями. Применяется для оценки RAG, fine-tuning и агентов.
Где встречается
- 5. Как вы оцениваете качество retrieval'а в RAG-системе
- 16. Как вы оцениваете качество генерации в RAG. Назовите 3 ключевые метрики.
- 25. Как вы оцениваете качество после fine-tuning
- 28. Какие данные нужны для fine-tuning на кастомный стиль общения
- 29. Как fine-tune модель для следования сложным инструкциям
- 32. Как вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами
- 62. Какие метрики вы мониторите для LLM в production
- 76. Как вы делаете AB тестирование двух моделей в production
- 78. Какие LLM для русского языка вы используете
- 93. Как вы дебажите проблему LLM не следовала системному промпту
- 103. Какие оптимизаторы (teleprompters) в DSPy вы использовали и когда BootstrapFewShot, MIPRO, COPRO
- 104. Как вы интегрируете DSPy с RAG-пайплайном Приведите пример сигнатуры.
- 105. Когда DSPy не подходит Назовите 3 сценария.
- 106. Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику
- 109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production
- 115. Как вы обрабатываете большие таблицы в RAG (500+ строк)
- 118. Как вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал
- 129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)
- 132. Как вы калибруете LLM-судью под человеческие оценки
- 133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.
- 134. Как вы оцениваете faithfulness RAG-ответа в production автоматически
- 136. Как вы AB тестируете две версии промпта в production
- 138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
- 139. Как вы оцениваете cost-effectiveness LLM-пайплайна
- 140. Как вы проверяете, что новая версия модели не сломала старые кейсы
- 141. В чем разница между Naive RAG, Adaptive RAG и Agentic RAG
- 142. Как вы проектируете «планировщика» (planner) для Agentic RAG
- 162. Что такое Quasar и как quantized verification ускоряет инференс
- 170. Что такое GIM (Grounded Integration Measure) и чем он отличается от GPQA
- 172. Что такое LiveIdeaBench и для чего он нужен
- 173. Как вы оцениваете креативность LLM в production
- 176. Какие инструменты для агентской эвалюации вы используете
- 177. Как вы измеряете дрейф модели (model drift) для LLM
- 178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
- 179. Как вы AB тестируете агентов в production
- 258. Что такое weak supervision для разметки данных для fine-tuning и как его применить
- 259. Как вы генерируете synthetic данные для instruction tuning
- 261. Как вы управляете качеством разметки (label quality) для DPO датасетов
- 288. Как вы тестируете видение модели (vision-language) на пропущенные детали
- 291. Как вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)