中文翻译暂不可用,显示俄语原文。
F1
F1
Определение
Гармоническое среднее precision и recall, используемое как сбалансированная метрика качества классификации, особенно при несбалансированных классах. Применяется для оценки ответов моделей, согласованности (self-consistency) и в бенчмарках.
Где встречается
- 25. Как вы оцениваете качество после fine-tuning
- 34. Какая у вас была самая сложная проблема при fine-tuning и как вы её решили
- 101. Что такое DSPy и какую проблему он решает, которую не решают LangChain или LlamaIndex
- 105. Когда DSPy не подходит Назовите 3 сценария.
- 106. Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику
- 129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)
- 132. Как вы калибруете LLM-судью под человеческие оценки
- 178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
- 195. Как вы проверяете, что модель действительно использует структуру представления, а не игнорирует ее
- 199. Как вы combine language representation с DSPy
- 263. Как вы обрабатываете PII в данных для RAG (GDPR, 152-ФЗ)
- 272. Как вы проверяете качество parsing документов (PDF, DOCX) в production
- 368. Как вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)
- 375. Как вы калибруете retrieval confidence для threshold-based filtering
- 391. Как вы проектируете агента, который может работать непрерывно (247) без дрейфа поведения
- 494. Что такое synthetic eval collapse и как его предотвратить
- 501. Что такое Path-level evaluation для Agentic RAG и чем оно лучше token-level
- 523. Как вы делаете synthetic data generation для редких классов в датасете
- 547. Как вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)
- 560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей
- 571. Как работают verifier models для agentic RAG и зачем они нужны
- 597. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
- 613. Как работает model watermarking для LLM (идентификация модели-источника)
- 622. Как работает membership inference через logits (разница в вероятностях)
- 627. Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)
- 682. Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)
- 689. Как вы проектируете dynamic benchmark (меняющийся со временем)
- 690. Как вы измеряете diversity синтетического датасета
- 699. Как вы оцениваете, сколько синтетических данных нужно для fine-tuning (power analysis)
- 748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)
- 878. Как измерять faithfulness для long-form ответов (1000+ токенов)
- 879. Как делать evaluation для long-context RAG (100k токенов)
- 892. Как работают verifier models для agentic RAG
- 899. Что такое DSPy в контексте агентов
- 800+ вопросов
- 59. Сравнить архитектуры на reasoning задачах
- 60. Настроить гибрид (Mamba + Attention)
- 77. Реализовать cost-aware routing
- 88. Реализовать hallucination indicator
- 95. Написать runbook для synthetic data collapse