Contents
Questions
Practice
Wiki
Community materials
Tests
Search

✈Telegram @ai_varo

…

Contents/Wiki/prefill stage

English translation is not available yet. Showing Russian content.

prefill stage

prefill stage

Определение

Этап предварительной обработки входного контекста, вычисление attention для всех токенов; чередуется с decode при chunked prefill.

Где встречается

159. Как speculative decoding взаимодействует с KV cache
201. Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI
207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
210. Что такое chunked prefill и зачем он нужен
211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
345. Как вы проектируете red teaming evaluation для jailbreak устойчивости
352. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
422. Как вы управляете секретами (API keys для LLM) в Kubernetes
436. В чем разница между prefill и decode stage в LLM инференсе
437. Почему decode stage плохо batchится
438. Что такое continuous batching Как реализовано в vLLM
446. Что такое chunked prefill и зачем он нужен
453. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
625. Что такое adversarial prompt detection для реального времени (runtime)
631. Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)
837. Как работает paged attention (детально)
842. Как работает prefix caching и prompt caching у провайдеров
843. Что такое continuous batching и как оно влияет на throughput
800+ вопросов
29. Реализовать автоматический postmortem
134. Настроить token budget для агента
212. Настроить chunked prefill для long context

Навигация

Индекс терминов
Индекс разборов
Оглавление