F1

Определение

Гармоническое среднее precision и recall, используемое как сбалансированная метрика качества классификации, особенно при несбалансированных классах. Применяется для оценки ответов моделей, согласованности (self-consistency) и в бенчмарках.

Где встречается

25. Как вы оцениваете качество после fine-tuning
34. Какая у вас была самая сложная проблема при fine-tuning и как вы её решили
101. Что такое DSPy и какую проблему он решает, которую не решают LangChain или LlamaIndex
105. Когда DSPy не подходит Назовите 3 сценария.
106. Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику
129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)
132. Как вы калибруете LLM-судью под человеческие оценки
178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
195. Как вы проверяете, что модель действительно использует структуру представления, а не игнорирует ее
199. Как вы combine language representation с DSPy
263. Как вы обрабатываете PII в данных для RAG (GDPR, 152-ФЗ)
272. Как вы проверяете качество parsing документов (PDF, DOCX) в production
368. Как вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)
375. Как вы калибруете retrieval confidence для threshold-based filtering
391. Как вы проектируете агента, который может работать непрерывно (247) без дрейфа поведения
494. Что такое synthetic eval collapse и как его предотвратить
501. Что такое Path-level evaluation для Agentic RAG и чем оно лучше token-level
523. Как вы делаете synthetic data generation для редких классов в датасете
547. Как вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)
560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей
571. Как работают verifier models для agentic RAG и зачем они нужны
597. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
613. Как работает model watermarking для LLM (идентификация модели-источника)
622. Как работает membership inference через logits (разница в вероятностях)
627. Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)
682. Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)
689. Как вы проектируете dynamic benchmark (меняющийся со временем)
690. Как вы измеряете diversity синтетического датасета
699. Как вы оцениваете, сколько синтетических данных нужно для fine-tuning (power analysis)
748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)
878. Как измерять faithfulness для long-form ответов (1000+ токенов)
879. Как делать evaluation для long-context RAG (100k токенов)
892. Как работают verifier models для agentic RAG
899. Что такое DSPy в контексте агентов
800+ вопросов
59. Сравнить архитектуры на reasoning задачах
60. Настроить гибрид (Mamba + Attention)
77. Реализовать cost-aware routing
88. Реализовать hallucination indicator
95. Написать runbook для synthetic data collapse

F1

F1

Определение

Где встречается

Навигация