continuous batching

continuous batching

Определение

Метод батчевой обработки при инференсе LLM, при котором новые запросы могут динамически добавляться, а завершённые удаляться на уровне токенов. Это повышает утилизацию GPU и пропускную способность по сравнению со static batching.

Где встречается

Навигация