Self-RAG
Self-RAG
Определение
Подход RAG, при котором LLM рефлексивно решает, когда выполнять поиск, и генерирует ответ с цитатами, используя специальные токены для рефлексии.
Где встречается
- 1. Как бы вы спроектировали RAG-систему для 10 000 документов с разной структурой
- 11. Что такое Hypothetical Document Embeddings (HyDE) и зачем
- 21. Когда вы выбираете fine-tuning вместо RAG, а когда — наоборот
- 71. Как вы тестируете RAG-систему на новых документах без реальных пользователей
- 86. Как вы решаете проблему “я знаю, что ответ есть в документах, но retrieval не находит”
- 116. Как вы индексируете видео-контент в RAG-системе
- 123. Как вы защищаете RAG-систему от утечки данных между клиентами (multi-tenant isolation)
- 134. Как вы оцениваете faithfulness RAG-ответа в production автоматически
- 141. В чем разница между Naive RAG, Adaptive RAG и Agentic RAG
- 149. Как спроектировать агента, который может самоисправляться (self-correction)
- 211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
- 216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
- 257. Как вы дедуплицируете документы перед индексацией в RAG
- 266. Как вы делаете incremental ingestion для часто меняющихся документов
- 269. Как вы обрабатываете streaming данные для real-time RAG
- 271. Как вы делаете schema evolution для метаданных документов в RAG
- 286. Как вы детектируете и фиксите attention sinks в длинных контекстах
- 341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)
- 342. Что такое statistical power evaluation и как определять размер выборки
- 353. Как работает embedding poisoning для RAG и как защититься
- 368. Как вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)
- 373. Что такое learning-to-rank (LTR) и как он применяется к retrieval для LLM
- 379. Как вы оцениваете retrieval с учетом позиции (Position-aware metrics)
- 412. Как вы делаете cache invalidation для semantic cache при обновлении знаний
- 454. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать
- 502. Как вы AB тестируете две версии промпта в production
- 508. Как вы оцениваете faithfulness без ground truth (если нет правильного ответа)
- 520. Как вы проектируете data lineage для RAG (от документа к ответу)
- 541. Как вы делаете RAG для изображений (image retrieval without text)
- 546. Как вы индексируете видео-контент в RAG-системе
- 634. Что такое lost in the middle и как это связано с attention sink
- 635. Как работает RAPTOR (иерархическое суммирование для длинного контекста)
- 644. Как вы оцениваете faithfulness ответа на длинном контексте (когда много информации)
- 645. Что такое hierarchical retrieval для long context RAG (когда контекст 100k)
- 687. Как вы делаете synthetic eval (генерация тестовых вопросов по документам)
- 708. Что такое MIG (Multi-Instance GPU) и как настроить для разных LLM
- 744. Что такое Agent Loop и какие компоненты входят в production-ready loop
- 787. Как делать property-based testing для агентов
- 797. Как тестировать промпты (prompt regression testing)
- 802. Что такое «prompt as code» (промпты в Git, code review)