中文翻译暂不可用,显示俄语原文。
accuracy
accuracy
Определение
Обобщённая метрика качества, измеряющая долю правильных ответов модели. В контексте LLM включает точность классификации, фактологическую верность (faithfulness) и успешность выполнения задач (например, tool selection accuracy).
Где встречается
- 7. Как вы уменьшаете latency RAG-системы (время ответа)
- 24. Какой размер датасета нужен для fine-tuning
- 25. Как вы оцениваете качество после fine-tuning
- 46. Какие инструменты (toolsfunctions) дать агенту для автоматизации бизнес-задач (ваш кейс!)
- 62. Какие метрики вы мониторите для LLM в production
- 69. Как вы организуете CICD для RAG-пайплайна
- 80. Какие 3 книгикурса вы рекомендуете по production LLM
- 94. Как вы проектируете промпты, которые работают с разными моделями
- 129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)
- 132. Как вы калибруете LLM-судью под человеческие оценки
- 145. LangGraph vs CrewAI vs AutoGen — что вы выберете и для каких задач
- 156. Как вы выбираете между увеличением тест-тайм компьютинга и использованием большей модели
- 178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
- 188. Что такое «Schema-Activated In-Context Learning» (SA-ICL)
- 195. Как вы проверяете, что модель действительно использует структуру представления, а не игнорирует ее
- 198. Какие ограничения у language representation design
- 199. Как вы combine language representation с DSPy
- 233. Как вы делаете hybrid search (vector + keyword) в production на 10M документов
- 264. Как вы делаете backfill эмбеддингов при смене embedding модели
- 272. Как вы проверяете качество parsing документов (PDF, DOCX) в production
- 288. Как вы тестируете видение модели (vision-language) на пропущенные детали
- 341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)
- 352. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
- 353. Как работает embedding poisoning для RAG и как защититься
- 368. Как вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)
- 374. Как вы делаете query rewriting и query expansion в RAG
- 378. Как работает многогранный (faceted) поиск в RAG с фильтрами
- 382. Как вы проектируете canary deployment для LLM модели
- 383. Что такое error budget для AI качества и как его считать
- 481. Что такое LoRA для training (инференс уже знаем)
- 486. Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.
- 494. Что такое synthetic eval collapse и как его предотвратить
- 504. Как вы оцениваете cost-effectiveness LLM-пайплайна
- 505. Как вы проверяете, что новая версия модели не сломала старые кейсы
- 506. Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации
- 508. Как вы оцениваете faithfulness без ground truth (если нет правильного ответа)
- 509. Как вы сравниваете две модели, если у них разная latency (быстрая неточная vs медленная точная)
- 519. Как вы делаете backfill эмбеддингов при смене embedding модели
- 523. Как вы делаете synthetic data generation для редких классов в датасете
- 547. Как вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)