Self-reflection
Self-reflection
Определение
Процесс, при котором LLM проверяет свои ответы на достоверность (faithfulness) или генерирует несколько вариантов для проверки согласованности (self-consistency).
Где встречается
- 17. Как вы уменьшаете галлюцинации в RAG
- 53. Как вы проектируете промпт для агента с инструментами
- 145. LangGraph vs CrewAI vs AutoGen — что вы выберете и для каких задач
- 152. В чем разница между Chain-of-Thought (CoT) и Latent Reasoning
- 156. Как вы выбираете между увеличением тест-тайм компьютинга и использованием большей модели
- 165. Как тест-тайм компьютинг меняет MLOps
- 174. Что такое «многошаговая когерентность» (coherence illusion) в cascading agent systems
- 184. Почему естественный язык не подходит для сложного рассуждения
- 334. Как вы делаете online RL для агентов (self-improvement loops)
- 377. Как вы делаете retrieval для структурированных данных (SQL, Knowledge Graph)
- 385. Как вы автоматизируете rollback при деградации качества
- 487. Что такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)
- 499. Как вы оцениваете alignment модели с человеческими ценностями без gold standard
- 508. Как вы оцениваете faithfulness без ground truth (если нет правильного ответа)
- 534. Как вы делаете data quality для синтетических датасетов
- 567. Что такое plannerexecutor architecture для агентов и когда она нужна
- 570. Что такое tree search agents (MCTS for LLM) и когда они эффективны
- 571. Как работают verifier models для agentic RAG и зачем они нужны
- 573. Как вы предотвращаете tool overuse (когда агент вызывает API даже когда не нужно)
- 578. Что такое agent evaluation метрика successful task completion rate vs step efficiency
- 580. Как вы делаем agent with theory of mind (понимание намерений пользователя)
- 582. Как работает agent self-improvement через self-reflection on failures
- 587. Как работает agent with external tool verification (проверка результатов API)
- 588. Что такое agent explanation fidelity (насколько объяснение соответствует реальному решению)
- 589. Как вы делаете agent с human values alignment (Constitutional AI для агентов)
- 624. Как вы защищаете RAG от data poisoning через неявные инструкции (subtle injections)
- 637. Что такое Chain-of-Thought без токенов (latent CoT, COCONUT)
- 638. Как работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)
- 644. Как вы оцениваете faithfulness ответа на длинном контексте (когда много информации)
- 682. Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)
- 687. Как вы делаете synthetic eval (генерация тестовых вопросов по документам)
- 741. Что такое Partial Harnessing (частичное управление)
- 743. Какие есть типичные failure modes в harness-engineering (over-decomposition, over-pruning)
- 866. Как генерировать synthetic датасеты для RAG evaluation
- 870. Как работает LLM-as-judge и почему он biased
- 892. Как работают verifier models для agentic RAG
- 893. Как работает tree search (MCTS) для LLM агентов
- Практика
- 800+ вопросов
- 231. Agentic RAG с саморефлексией