HumanEval

Определение

Бенчмарк для оценки способности моделей генерировать код по описанию. Используется для измерения производительности в задачах генерации кода, включая метрику pass@k.

Где встречается

72. OpenAI vs Антропик vs Groq vs Self-hosted — что выбираете
151. Что такое тест-тайм компьютинг (Test-Time Compute) и чем он отличается от обычного инференса
172. Что такое LiveIdeaBench и для чего он нужен
259. Как вы генерируете synthetic данные для instruction tuning
498. Что такое meta-evaluation бенчмарков (оценка оценки)
596. Как работает model stealing attack (экстракция модели через API)
783. Как сравнивать cost efficiency разных LLM провайдеров
Практика
128. Измерить KPD (коэффициент полезного делегирования)
210. Сравнить GPTQ vs AWQ на reasoning задачах
272. Настроить data augmentation для кода

HumanEval

HumanEval

Определение

Где встречается

Навигация