chunked prefill
chunked prefill
Определение
разбивает длинные промпты на части, чередуя prefill и decode, уменьшает TTFT для длинных промптов
Где встречается
- 205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
- 210. Что такое chunked prefill и зачем он нужен
- 211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
- 436. В чем разница между prefill и decode stage в LLM инференсе
- 438. Что такое continuous batching Как реализовано в vLLM
- 446. Что такое chunked prefill и зачем он нужен
- 848. Как работает динамическое бэтчирование в TGI vs vLLM
- Практика
- 800+ вопросов
- 212. Настроить chunked prefill для long context