human-in-the-loop

Определение

Метод включения человека в контур принятия решений агента для контроля критических действий, предотвращения бесконечных циклов и обеспечения безопасности. Используется для эскалации сложных случаев.

Где встречается

44. CrewAI vs AutoGen vs LangGraph — сравнение
46. Какие инструменты (toolsfunctions) дать агенту для автоматизации бизнес-задач (ваш кейс!)
49. Как вы дебажите агента, который делает неправильные действия
50. Как вы ограничиваете бесконечный цикл агента
56. Как вы делаете агента отказоустойчивым (graceful degradation)
60. Как вы обрабатываете ошибки агента (action не сработал, API вернул ошибку)
62. Какие метрики вы мониторите для LLM в production
86. Как вы решаете проблему “я знаю, что ответ есть в документах, но retrieval не находит”
96. Как вы предотвращаете галлюцинации в production RAG системе
105. Когда DSPy не подходит Назовите 3 сценария.
136. Как вы AB тестируете две версии промпта в production
143. Как вы боретесь с «бесконечным циклом» агента в Agentic RAG
146. Как вы обеспечиваете «человека в петле» (HITL) для критических действий агента
148. Как вы измеряете стоимость агента в production (не только токены)
166. Назовите 7 production failure modes для agentic AI систем по PAEF (Pandey, 2026).
178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
330. Что такое RLAIF (RL from AI Feedback) и как он масштабируется
334. Как вы делаете online RL для агентов (self-improvement loops)
336. Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO
344. Что такое reward hacking в RLHF и как его детектировать
359. Как вы защищаете multi-agent систему от вредоносного агента
396. Как вы проектируете «человека в петле» для multi-agent системы с минимальным overhead
397. Как вы делаете агента, который может «просить помощи» у другого агента или человека
486. Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.
489. Что такое reward hacking в RLHF и как его детектировать
492. Как вы измеряете inter-rater reliability для human evaluation
493. Что такое Positional bias в LLM-as-Judge и как его исправить
494. Что такое synthetic eval collapse и как его предотвратить
495. Что такое pairwise comparison vs scalar rating Когда что использовать
497. Как вы проектируете red teaming evaluation для jailbreak устойчивости
504. Как вы оцениваете cost-effectiveness LLM-пайплайна
508. Как вы оцениваете faithfulness без ground truth (если нет правильного ответа)
552. Как вы делаете image captioning для RAG (извлечение описания изображения)
571. Как работают verifier models для agentic RAG и зачем они нужны
573. Как вы предотвращаете tool overuse (когда агент вызывает API даже когда не нужно)
578. Что такое agent evaluation метрика successful task completion rate vs step efficiency
585. Как вы делаете agent robustness к missing API (когда инструмент временно недоступен)
587. Как работает agent with external tool verification (проверка результатов API)
607. Что такое sandbox escape для AI-агента и как защититься
644. Как вы оцениваете faithfulness ответа на длинном контексте (когда много информации)

human-in-the-loop

human-in-the-loop

Определение

Где встречается

Навигация

human-in-the-loop

human-in-the-loop

Определение

Где встречается

Навигация