Faithfulness
Faithfulness
Определение
Метрика качества RAG-ответа, оценивающая, насколько ответ соответствует предоставленным документам и не содержит галлюцинаций.
Где встречается
- 3 Какие стратегии chunking'а вы знаете и когда какую применяете
- 5. Как вы оцениваете качество retrieval'а в RAG-системе
- 16. Как вы оцениваете качество генерации в RAG. Назовите 3 ключевые метрики.
- 17. Как вы уменьшаете галлюцинации в RAG
- 70. Как вы снижаете стоимость LLM в production на 50%+
- 71. Как вы тестируете RAG-систему на новых документах без реальных пользователей
- 78. Какие LLM для русского языка вы используете
- 80. Какие 3 книгикурса вы рекомендуете по production LLM
- 95. Как вы храните историю изменений промптов (prompt lineage)
- 96. Как вы предотвращаете галлюцинации в production RAG системе
- 101. Что такое DSPy и какую проблему он решает, которую не решают LangChain или LlamaIndex
- 106. Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику
- 109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production
- 113. Как вы представляете граф знаний из изображения для LLM
- 114. Что такое Layout-Aware Chunking и как он связан с мультимодальностью
- 115. Как вы обрабатываете большие таблицы в RAG (500+ строк)
- 118. Как вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал
- 119. Как вы комбинируете текстовый и визуальный поиск (early fusion vs late fusion)
- 133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.
- 134. Как вы оцениваете faithfulness RAG-ответа в production автоматически
- 139. Как вы оцениваете cost-effectiveness LLM-пайплайна
- 140. Как вы проверяете, что новая версия модели не сломала старые кейсы
- 149. Как спроектировать агента, который может самоисправляться (self-correction)
- 162. Что такое Quasar и как quantized verification ускоряет инференс
- 174. Что такое «многошаговая когерентность» (coherence illusion) в cascading agent systems
- 177. Как вы измеряете дрейф модели (model drift) для LLM
- 178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
- 179. Как вы AB тестируете агентов в production
- 192. Как вы оцениваете качество language representation для задачи
- 196. Как language representation связан с тест-тайм компьютингом
- 241. Как вы делаете distributed tracing для цепочки user → gateway → RAG → LLM → user
- 243. Как вы делаете blue-green deployment для RAG системы с zero downtime
- 298. Как вы тестируете robustness LLM к adversarial input (не только injection)
- 342. Что такое statistical power evaluation и как определять размер выборки
- 349. Как вы проводите AB тест метрик качества (не бизнес-метрик)
- 375. Как вы калибруете retrieval confidence для threshold-based filtering
- 381. Как вы определяете SLO и SLA для LLM сервиса
- 385. Как вы автоматизируете rollback при деградации качества
- 388. Что такое SLI (Service Level Indicators) для AI системы и как их собирать
- 390. Как вы проектируем on-call ротацию для AI сервиса