CUDA

Определение

CUDA (Compute Unified Device Architecture) — платформа параллельных вычислений NVIDIA для программирования GPU, применяемая для ускорения инференса LLM и реализации алгоритмов вроде FlashAttention.

Где встречается

77. Как вы оптимизируете embedding генерацию для большого количества документов
301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
302. Что такое warp divergence в CUDA и как он влияет на attention
305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
315. Что такое MIG (Multi-Instance GPU) и когда он полезен для LLM
322. Что такое operator fusion в компиляторах и какие паттерны fusion существуют
324. Что такое TVM (Apache TVM) и зачем он нужен для AI инференса
443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.
704. Что такое bank conflicts в shared memory и как их избежать
710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
712. Что такое Cooperative Groups в CUDA и как использовать для attention
800+ вопросов
4. Настроить GPU Direct RDMA
53. Реализовать selective scan (Mamba)
214. Реализовать FP8 инференс на H100
215. Настроить expert parallelism для Mixtral
224. vLLM кластер на 4 GPU
244. Fine-tune QLoRA на 1 GPU
299. RAG с мультиязычным поиском (русскийанглийскийкитайский)

CUDA

CUDA

Определение

Где встречается

Навигация