English translation is not available yet. Showing Russian content.
answer_exact_match
answer_exact_match
Определение
Метрика, измеряющая долю случаев, когда сгенерированный ответ полностью совпадает с эталонным.
Где встречается
- 25. Как вы оцениваете качество после fine-tuning
- 34. Какая у вас была самая сложная проблема при fine-tuning и как вы её решили
- 103. Какие оптимизаторы (teleprompters) в DSPy вы использовали и когда BootstrapFewShot, MIPRO, COPRO
- 104. Как вы интегрируете DSPy с RAG-пайплайном Приведите пример сигнатуры.
- 105. Когда DSPy не подходит Назовите 3 сценария.
- 153. Что такое ∇-Reasoner (nabla-reasoner) и как он использует градиентный спуск на этапе теста
- 350. Как вы детектируете data contamination в evaluation датасетах
- 488. Что такое benchmark contamination и как ее детектировать
- 501. Что такое Path-level evaluation для Agentic RAG и чем оно лучше token-level
- 506. Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации
- 578. Что такое agent evaluation метрика successful task completion rate vs step efficiency
- 694. Как работает weak supervision для synthetic данных (создание правил разметки)
- 748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)
- 789. Как тестировать multi-turn диалоги агента
- 792. Что такое «regression testing» для агентов (старый кейс сломался)
- 876. Как избежать evaluation overfitting (когда модель учится на тесте)
- 48. Настроить click models для implicit feedback
- 60. Настроить гибрид (Mamba + Attention)
- 62. Настроить MCTS для математических задач
- 127. Реализовать outsourcing другому LLM
- 152. Реализовать test generation для агента
- 279. Настроить adversarial evaluation для RAG