Self-Speculative Decoding

Self-Speculative Decoding

Определение

Метод ускорения декодирования, при котором target модель использует дополнительные головы (например, Medusa) для предсказания нескольких токенов параллельно без отдельной draft-модели.

Где встречается

Навигация