Self-reflection

Определение

Процесс, при котором LLM проверяет свои ответы на достоверность (faithfulness) или генерирует несколько вариантов для проверки согласованности (self-consistency).

Где встречается

17. Как вы уменьшаете галлюцинации в RAG
53. Как вы проектируете промпт для агента с инструментами
145. LangGraph vs CrewAI vs AutoGen — что вы выберете и для каких задач
152. В чем разница между Chain-of-Thought (CoT) и Latent Reasoning
156. Как вы выбираете между увеличением тест-тайм компьютинга и использованием большей модели
165. Как тест-тайм компьютинг меняет MLOps
174. Что такое «многошаговая когерентность» (coherence illusion) в cascading agent systems
184. Почему естественный язык не подходит для сложного рассуждения
334. Как вы делаете online RL для агентов (self-improvement loops)
377. Как вы делаете retrieval для структурированных данных (SQL, Knowledge Graph)
385. Как вы автоматизируете rollback при деградации качества
487. Что такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)
499. Как вы оцениваете alignment модели с человеческими ценностями без gold standard
508. Как вы оцениваете faithfulness без ground truth (если нет правильного ответа)
534. Как вы делаете data quality для синтетических датасетов
567. Что такое plannerexecutor architecture для агентов и когда она нужна
570. Что такое tree search agents (MCTS for LLM) и когда они эффективны
571. Как работают verifier models для agentic RAG и зачем они нужны
573. Как вы предотвращаете tool overuse (когда агент вызывает API даже когда не нужно)
578. Что такое agent evaluation метрика successful task completion rate vs step efficiency
580. Как вы делаем agent with theory of mind (понимание намерений пользователя)
582. Как работает agent self-improvement через self-reflection on failures
587. Как работает agent with external tool verification (проверка результатов API)
588. Что такое agent explanation fidelity (насколько объяснение соответствует реальному решению)
589. Как вы делаете agent с human values alignment (Constitutional AI для агентов)
624. Как вы защищаете RAG от data poisoning через неявные инструкции (subtle injections)
637. Что такое Chain-of-Thought без токенов (latent CoT, COCONUT)
638. Как работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)
644. Как вы оцениваете faithfulness ответа на длинном контексте (когда много информации)
682. Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)
687. Как вы делаете synthetic eval (генерация тестовых вопросов по документам)
741. Что такое Partial Harnessing (частичное управление)
743. Какие есть типичные failure modes в harness-engineering (over-decomposition, over-pruning)
866. Как генерировать synthetic датасеты для RAG evaluation
870. Как работает LLM-as-judge и почему он biased
892. Как работают verifier models для agentic RAG
893. Как работает tree search (MCTS) для LLM агентов
Практика
800+ вопросов
231. Agentic RAG с саморефлексией

Self-reflection

Self-reflection

Определение

Где встречается

Навигация

Self-reflection

Self-reflection

Определение

Где встречается

Навигация