English translation is not available yet. Showing Russian content.
CUDA
CUDA
Определение
CUDA (Compute Unified Device Architecture) — платформа параллельных вычислений NVIDIA для программирования GPU, применяемая для ускорения инференса LLM и реализации алгоритмов вроде FlashAttention.
Где встречается
- 77. Как вы оптимизируете embedding генерацию для большого количества документов
- 301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
- 302. Что такое warp divergence в CUDA и как он влияет на attention
- 305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
- 315. Что такое MIG (Multi-Instance GPU) и когда он полезен для LLM
- 322. Что такое operator fusion в компиляторах и какие паттерны fusion существуют
- 324. Что такое TVM (Apache TVM) и зачем он нужен для AI инференса
- 443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.
- 704. Что такое bank conflicts в shared memory и как их избежать
- 710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
- 712. Что такое Cooperative Groups в CUDA и как использовать для attention
- 800+ вопросов
- 4. Настроить GPU Direct RDMA
- 53. Реализовать selective scan (Mamba)
- 214. Реализовать FP8 инференс на H100
- 215. Настроить expert parallelism для Mixtral
- 224. vLLM кластер на 4 GPU
- 244. Fine-tune QLoRA на 1 GPU
- 299. RAG с мультиязычным поиском (русскийанглийскийкитайский)