Faithfulness

Определение

Метрика качества RAG-ответа, оценивающая, насколько ответ соответствует предоставленным документам и не содержит галлюцинаций.

Где встречается

3 Какие стратегии chunking'а вы знаете и когда какую применяете
5. Как вы оцениваете качество retrieval'а в RAG-системе
16. Как вы оцениваете качество генерации в RAG. Назовите 3 ключевые метрики.
17. Как вы уменьшаете галлюцинации в RAG
70. Как вы снижаете стоимость LLM в production на 50%+
71. Как вы тестируете RAG-систему на новых документах без реальных пользователей
78. Какие LLM для русского языка вы используете
80. Какие 3 книгикурса вы рекомендуете по production LLM
95. Как вы храните историю изменений промптов (prompt lineage)
96. Как вы предотвращаете галлюцинации в production RAG системе
101. Что такое DSPy и какую проблему он решает, которую не решают LangChain или LlamaIndex
106. Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику
109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production
113. Как вы представляете граф знаний из изображения для LLM
114. Что такое Layout-Aware Chunking и как он связан с мультимодальностью
115. Как вы обрабатываете большие таблицы в RAG (500+ строк)
118. Как вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал
119. Как вы комбинируете текстовый и визуальный поиск (early fusion vs late fusion)
133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.
134. Как вы оцениваете faithfulness RAG-ответа в production автоматически
139. Как вы оцениваете cost-effectiveness LLM-пайплайна
140. Как вы проверяете, что новая версия модели не сломала старые кейсы
149. Как спроектировать агента, который может самоисправляться (self-correction)
162. Что такое Quasar и как quantized verification ускоряет инференс
174. Что такое «многошаговая когерентность» (coherence illusion) в cascading agent systems
177. Как вы измеряете дрейф модели (model drift) для LLM
178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
179. Как вы AB тестируете агентов в production
192. Как вы оцениваете качество language representation для задачи
196. Как language representation связан с тест-тайм компьютингом
241. Как вы делаете distributed tracing для цепочки user → gateway → RAG → LLM → user
243. Как вы делаете blue-green deployment для RAG системы с zero downtime
298. Как вы тестируете robustness LLM к adversarial input (не только injection)
342. Что такое statistical power evaluation и как определять размер выборки
349. Как вы проводите AB тест метрик качества (не бизнес-метрик)
375. Как вы калибруете retrieval confidence для threshold-based filtering
381. Как вы определяете SLO и SLA для LLM сервиса
385. Как вы автоматизируете rollback при деградации качества
388. Что такое SLI (Service Level Indicators) для AI системы и как их собирать
390. Как вы проектируем on-call ротацию для AI сервиса

Faithfulness

Faithfulness

Определение

Где встречается

Навигация

Faithfulness

Faithfulness

Определение

Где встречается

Навигация