speculative decoding

speculative decoding

Определение

Метод ускорения инференса LLM, при котором маленькая модель (draft) генерирует черновик, а большая модель (target) его верифицирует, позволяя достичь ускорения в 1.5-3x.

Где встречается

Навигация