Representation distillation

Representation distillation

Определение

Representation distillation (дистилляция представлений) — это метод сжатия модели, при котором студент (student model) обучается имитировать не только финальные выходы (логиты) учителя (teacher model), но и внутренние представления (скрытые слои, эмбеддинги) большой модели. В отличие от классической дистилляции (logit-based KD), здесь используется дополнительная функция потерь, сравнивающая промежуточные активации или карты признаков учителя и студента. Это позволяет студенту глубже усвоить структуру знаний учителя, что особенно полезно для задач, требующих понимания семантики или иерархии признаков.

Где встречается

Навигация