LLM-as-a-judge

Определение

Метод автоматической оценки качества генерации, где большая языковая модель (например, GPT-4) сравнивает ответы с эталоном или критериями. Применяется для оценки RAG, fine-tuning и агентов.

Где встречается

5. Как вы оцениваете качество retrieval'а в RAG-системе
16. Как вы оцениваете качество генерации в RAG. Назовите 3 ключевые метрики.
25. Как вы оцениваете качество после fine-tuning
28. Какие данные нужны для fine-tuning на кастомный стиль общения
29. Как fine-tune модель для следования сложным инструкциям
32. Как вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами
62. Какие метрики вы мониторите для LLM в production
76. Как вы делаете AB тестирование двух моделей в production
78. Какие LLM для русского языка вы используете
93. Как вы дебажите проблему LLM не следовала системному промпту
103. Какие оптимизаторы (teleprompters) в DSPy вы использовали и когда BootstrapFewShot, MIPRO, COPRO
104. Как вы интегрируете DSPy с RAG-пайплайном Приведите пример сигнатуры.
105. Когда DSPy не подходит Назовите 3 сценария.
106. Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику
109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production
115. Как вы обрабатываете большие таблицы в RAG (500+ строк)
118. Как вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал
129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)
132. Как вы калибруете LLM-судью под человеческие оценки
133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.
134. Как вы оцениваете faithfulness RAG-ответа в production автоматически
136. Как вы AB тестируете две версии промпта в production
138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
139. Как вы оцениваете cost-effectiveness LLM-пайплайна
140. Как вы проверяете, что новая версия модели не сломала старые кейсы
141. В чем разница между Naive RAG, Adaptive RAG и Agentic RAG
142. Как вы проектируете «планировщика» (planner) для Agentic RAG
162. Что такое Quasar и как quantized verification ускоряет инференс
170. Что такое GIM (Grounded Integration Measure) и чем он отличается от GPQA
172. Что такое LiveIdeaBench и для чего он нужен
173. Как вы оцениваете креативность LLM в production
176. Какие инструменты для агентской эвалюации вы используете
177. Как вы измеряете дрейф модели (model drift) для LLM
178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
179. Как вы AB тестируете агентов в production
258. Что такое weak supervision для разметки данных для fine-tuning и как его применить
259. Как вы генерируете synthetic данные для instruction tuning
261. Как вы управляете качеством разметки (label quality) для DPO датасетов
288. Как вы тестируете видение модели (vision-language) на пропущенные детали
291. Как вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)

LLM-as-a-judge

LLM-as-a-judge

Определение

Где встречается

Навигация

LLM-as-a-judge

LLM-as-a-judge

Определение

Где встречается

Навигация