Early exiting
Early exiting
Определение
Метод ускорения инференса, при котором модель завершает вычисления на промежуточном слое, если ответ достаточно надежен (например, с помощью logit lens).
Где встречается
- 162. Что такое Quasar и как quantized verification ускоряет инференс
- 289. Как работает speculative decoding на уровне логитов, а не токенов
- 674. Что такое logit lens (интерпретация скрытых состояний)
- 63. Реализовать verifier-guided decoding