CUDA streams
CUDA streams
Определение
Упорядоченные очереди операций на GPU, позволяющие параллельно выполнять kernel computation и data transfer. Использование нескольких concurrent streams даёт возможность оверлапить compute и communication, что критично для инференса в реальном времени.
Где встречается
- 308. Как работают CUDA streams и как они помогают оверлапить compute и communication
- 310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
- 311. Что такое CUDA graphs и как они ускоряют LLM инференс
- 402. Что такое NCCL и почему он критичен для multi-GPU инференса
- 556. Как вы делаете extraction таблиц из PDF для RAG
- 707. Как работает asynchronous execution на Hopper (copy engine vs compute)
- 800+ вопросов