decode
decode
Определение
Фаза генерации токенов после prefill, при которой токены генерируются по одному, влияя на TPOT и используемая в непрерывном батчинге.
Где встречается
- 201. Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI
- 207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
- 211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
- 438. Что такое continuous batching Как реализовано в vLLM
- 446. Что такое chunked prefill и зачем он нужен
- 453. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 549. Как вы проектируете систему для real-time video understanding (поток с камеры)
- 679. Что такое repetition penalty и как он работает
- 837. Как работает paged attention (детально)
- 842. Как работает prefix caching и prompt caching у провайдеров
- 843. Что такое continuous batching и как оно влияет на throughput
- 800+ вопросов
- 212. Настроить chunked prefill для long context