中文翻译暂不可用,显示俄语原文。
max_new_tokens
max_new_tokens
Определение
Параметр генерации LLM, определяющий максимальное количество новых токенов, которое может сгенерировать модель. Используется для ограничения длины ответа и управления временем выполнения.
Где встречается
- 848. Как работает динамическое бэтчирование в TGI vs vLLM
- 60. Настроить гибрид (Mamba + Attention)
- 220. Настроить wave decoding для коротких ответов
- 235. LoRA для function calling