max_batched_tokens
max_batched_tokens
Определение
Параметр, ограничивающий общее количество токенов в батче для предотвращения вытеснений или определяющий размер чанка при chunked prefill.
Где встречается
- 848. Как работает динамическое бэтчирование в TGI vs vLLM
- 212. Настроить chunked prefill для long context
- 236. RAG с оценкой faithfulness