Pass@k
Pass@k
Определение
Метрика, оценивающая вероятность того, что хотя бы один из k сгенерированных ответов является правильным. Часто применяется при оценке генерации кода и в методах вроде ReST.
Где встречается
- 25. Как вы оцениваете качество после fine-tuning
- 170. Что такое GIM (Grounded Integration Measure) и чем он отличается от GPQA
- 339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO
- 498. Что такое meta-evaluation бенчмарков (оценка оценки)
- 689. Как вы проектируете dynamic benchmark (меняющийся со временем)
- 68. Настроить inference-time scaling