confidence score
confidence score
Определение
Вероятность, присваиваемая моделью своему предсказанию; используется для фильтрации, калибровки и детекции неопределённости.
Где встречается
- 8. Как вы обрабатываете запросы, на которые нет ответа в документах
- 96. Как вы предотвращаете галлюцинации в production RAG системе
- 121. Назовите OWASP Top 10 для LLM (2025) и 3 самых критичных риска.
- 151. Что такое тест-тайм компьютинг (Test-Time Compute) и чем он отличается от обычного инференса
- 291. Как вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)
- 348. Что такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)
- 375. Как вы калибруете retrieval confidence для threshold-based filtering
- 393. Как вы измеряете «cost of reasoning» у агента (не только токены, но и шаги, время, ошибки)
- 400. Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофиче...
- 509. Как вы сравниваете две модели, если у них разная latency (быстрая неточная vs медленная точная)
- 583. Как вы делаете agent с bounded rationality (ограниченные вычислительные ресурсы)
- 584. Что такое agent distillation (обучение маленького агента на траекториях большого)
- 638. Как работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)
- 644. Как вы оцениваете faithfulness ответа на длинном контексте (когда много информации)
- 739. Как изменилась роль инженера с приходом Harness Engineering
- 759. Какие книги или ресурсы вы рекомендуете по Harness Engineering
- 760. Что такое Delegation Engineering и чем он отличается от Harness Engineering
- 763. Как проектировать fallback-цепи (агент А → агент Б → человек)
- 766. Что такое delegation by exception (делегирование только по исключению)
- 773. Как измерять «коэффициент полезного делегирования» (сколько задач решено правильно)
- 778. Как проектировать cost-aware routing (дешёвая модель для простых запросов, дорогая — для сложных)
- 892. Как работают verifier models для agentic RAG
- Практика
- 800+ вопросов
- 81. Спроектировать uncertainty UI
- 84. Реализовать conversational repair
- 85. Спроектировать escalation system
- 88. Реализовать hallucination indicator
- 105. Настроить Memory (in-memory + vector)
- 233. Агент с human-in-the-loop
- 249. RAG с cost-aware routing
- 274. Настроить self-training с псевдо-метками