answer_exact_match

Определение

Метрика, измеряющая долю случаев, когда сгенерированный ответ полностью совпадает с эталонным.

Где встречается

25. Как вы оцениваете качество после fine-tuning
34. Какая у вас была самая сложная проблема при fine-tuning и как вы её решили
103. Какие оптимизаторы (teleprompters) в DSPy вы использовали и когда BootstrapFewShot, MIPRO, COPRO
104. Как вы интегрируете DSPy с RAG-пайплайном Приведите пример сигнатуры.
105. Когда DSPy не подходит Назовите 3 сценария.
153. Что такое ∇-Reasoner (nabla-reasoner) и как он использует градиентный спуск на этапе теста
350. Как вы детектируете data contamination в evaluation датасетах
488. Что такое benchmark contamination и как ее детектировать
501. Что такое Path-level evaluation для Agentic RAG и чем оно лучше token-level
506. Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации
578. Что такое agent evaluation метрика successful task completion rate vs step efficiency
694. Как работает weak supervision для synthetic данных (создание правил разметки)
748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)
789. Как тестировать multi-turn диалоги агента
792. Что такое «regression testing» для агентов (старый кейс сломался)
876. Как избежать evaluation overfitting (когда модель учится на тесте)
48. Настроить click models для implicit feedback
60. Настроить гибрид (Mamba + Attention)
62. Настроить MCTS для математических задач
127. Реализовать outsourcing другому LLM
152. Реализовать test generation для агента
279. Настроить adversarial evaluation для RAG

answer_exact_match

answer_exact_match

Определение

Где встречается

Навигация