static memory allocation

static memory allocation

Определение

Метод управления памятью при инференсе, при котором для каждого запроса резервируется фиксированный объём памяти под KV cache. Это может приводить к неэффективности при динамической длине генерации.

Где встречается

Навигация