Scaling law for distillation
Scaling law for distillation
Определение
Закон масштабирования для дистилляции описывает зависимость качества student-модели от размеров teacher и student. При фиксированном объёме данных относительная потеря качества student (по сравнению с teacher) возрастает с увеличением разрыва в размерах моделей, однако абсолютные метрики student улучшаются, так как более крупный teacher передаёт больше знаний.