中文翻译暂不可用,显示俄语原文。
HumanEval
HumanEval
Определение
Бенчмарк для оценки способности моделей генерировать код по описанию. Используется для измерения производительности в задачах генерации кода, включая метрику pass@k.
Где встречается
- 72. OpenAI vs Антропик vs Groq vs Self-hosted — что выбираете
- 151. Что такое тест-тайм компьютинг (Test-Time Compute) и чем он отличается от обычного инференса
- 172. Что такое LiveIdeaBench и для чего он нужен
- 259. Как вы генерируете synthetic данные для instruction tuning
- 498. Что такое meta-evaluation бенчмарков (оценка оценки)
- 596. Как работает model stealing attack (экстракция модели через API)
- 783. Как сравнивать cost efficiency разных LLM провайдеров
- Практика
- 128. Измерить KPD (коэффициент полезного делегирования)
- 210. Сравнить GPTQ vs AWQ на reasoning задачах
- 272. Настроить data augmentation для кода