Scaling law for distillation

Scaling law for distillation

Определение

Закон масштабирования для дистилляции описывает зависимость качества student-модели от размеров teacher и student. При фиксированном объёме данных относительная потеря качества student (по сравнению с teacher) возрастает с увеличением разрыва в размерах моделей, однако абсолютные метрики student улучшаются, так как более крупный teacher передаёт больше знаний.

Где встречается

Навигация