Self-RAG

Определение

Подход RAG, при котором LLM рефлексивно решает, когда выполнять поиск, и генерирует ответ с цитатами, используя специальные токены для рефлексии.

Где встречается

1. Как бы вы спроектировали RAG-систему для 10 000 документов с разной структурой
11. Что такое Hypothetical Document Embeddings (HyDE) и зачем
21. Когда вы выбираете fine-tuning вместо RAG, а когда — наоборот
71. Как вы тестируете RAG-систему на новых документах без реальных пользователей
86. Как вы решаете проблему “я знаю, что ответ есть в документах, но retrieval не находит”
116. Как вы индексируете видео-контент в RAG-системе
123. Как вы защищаете RAG-систему от утечки данных между клиентами (multi-tenant isolation)
134. Как вы оцениваете faithfulness RAG-ответа в production автоматически
141. В чем разница между Naive RAG, Adaptive RAG и Agentic RAG
149. Как спроектировать агента, который может самоисправляться (self-correction)
211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
257. Как вы дедуплицируете документы перед индексацией в RAG
266. Как вы делаете incremental ingestion для часто меняющихся документов
269. Как вы обрабатываете streaming данные для real-time RAG
271. Как вы делаете schema evolution для метаданных документов в RAG
286. Как вы детектируете и фиксите attention sinks в длинных контекстах
341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)
342. Что такое statistical power evaluation и как определять размер выборки
353. Как работает embedding poisoning для RAG и как защититься
368. Как вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)
373. Что такое learning-to-rank (LTR) и как он применяется к retrieval для LLM
379. Как вы оцениваете retrieval с учетом позиции (Position-aware metrics)
412. Как вы делаете cache invalidation для semantic cache при обновлении знаний
454. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать
502. Как вы AB тестируете две версии промпта в production
508. Как вы оцениваете faithfulness без ground truth (если нет правильного ответа)
520. Как вы проектируете data lineage для RAG (от документа к ответу)
541. Как вы делаете RAG для изображений (image retrieval without text)
546. Как вы индексируете видео-контент в RAG-системе
634. Что такое lost in the middle и как это связано с attention sink
635. Как работает RAPTOR (иерархическое суммирование для длинного контекста)
644. Как вы оцениваете faithfulness ответа на длинном контексте (когда много информации)
645. Что такое hierarchical retrieval для long context RAG (когда контекст 100k)
687. Как вы делаете synthetic eval (генерация тестовых вопросов по документам)
708. Что такое MIG (Multi-Instance GPU) и как настроить для разных LLM
744. Что такое Agent Loop и какие компоненты входят в production-ready loop
787. Как делать property-based testing для агентов
797. Как тестировать промпты (prompt regression testing)
802. Что такое «prompt as code» (промпты в Git, code review)

Self-RAG

Self-RAG

Определение

Где встречается

Навигация

Self-RAG

Self-RAG

Определение

Где встречается

Навигация