max_num_seqs
max_num_seqs
Определение
Параметр vLLM, ограничивающий количество последовательностей (запросов) в одном батче. Позволяет контролировать использование памяти и вычислительных ресурсов.
Параметр vLLM, ограничивающий количество последовательностей (запросов) в одном батче. Позволяет контролировать использование памяти и вычислительных ресурсов.