accuracy

Определение

Обобщённая метрика качества, измеряющая долю правильных ответов модели. В контексте LLM включает точность классификации, фактологическую верность (faithfulness) и успешность выполнения задач (например, tool selection accuracy).

Где встречается

7. Как вы уменьшаете latency RAG-системы (время ответа)
24. Какой размер датасета нужен для fine-tuning
25. Как вы оцениваете качество после fine-tuning
46. Какие инструменты (toolsfunctions) дать агенту для автоматизации бизнес-задач (ваш кейс!)
62. Какие метрики вы мониторите для LLM в production
69. Как вы организуете CICD для RAG-пайплайна
80. Какие 3 книгикурса вы рекомендуете по production LLM
94. Как вы проектируете промпты, которые работают с разными моделями
129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)
132. Как вы калибруете LLM-судью под человеческие оценки
145. LangGraph vs CrewAI vs AutoGen — что вы выберете и для каких задач
156. Как вы выбираете между увеличением тест-тайм компьютинга и использованием большей модели
178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
188. Что такое «Schema-Activated In-Context Learning» (SA-ICL)
195. Как вы проверяете, что модель действительно использует структуру представления, а не игнорирует ее
198. Какие ограничения у language representation design
199. Как вы combine language representation с DSPy
233. Как вы делаете hybrid search (vector + keyword) в production на 10M документов
264. Как вы делаете backfill эмбеддингов при смене embedding модели
272. Как вы проверяете качество parsing документов (PDF, DOCX) в production
288. Как вы тестируете видение модели (vision-language) на пропущенные детали
341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)
352. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
353. Как работает embedding poisoning для RAG и как защититься
368. Как вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)
374. Как вы делаете query rewriting и query expansion в RAG
378. Как работает многогранный (faceted) поиск в RAG с фильтрами
382. Как вы проектируете canary deployment для LLM модели
383. Что такое error budget для AI качества и как его считать
481. Что такое LoRA для training (инференс уже знаем)
486. Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.
494. Что такое synthetic eval collapse и как его предотвратить
504. Как вы оцениваете cost-effectiveness LLM-пайплайна
505. Как вы проверяете, что новая версия модели не сломала старые кейсы
506. Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации
508. Как вы оцениваете faithfulness без ground truth (если нет правильного ответа)
509. Как вы сравниваете две модели, если у них разная latency (быстрая неточная vs медленная точная)
519. Как вы делаете backfill эмбеддингов при смене embedding модели
523. Как вы делаете synthetic data generation для редких классов в датасете
547. Как вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)

accuracy

accuracy

Определение

Где встречается

Навигация

accuracy

accuracy

Определение

Где встречается

Навигация