中文翻译暂不可用,显示俄语原文。
FlashAttention
FlashAttention
Определение
Memory-efficient механизм внимания с IO-aware дизайном, использующий tiling, recomputation и kernel fusion для снижения сложности по памяти с O(n²) до O(n). Поддерживает длинные контексты до 1M токенов.
Где встречается
- 7. Как вы уменьшаете latency RAG-системы (время ответа)
- 33. Какие фреймворки для fine-tuning вы используете
- 61. Как вы разворачиваете LLM в production (self-hosted)
- 87. Как вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов
- 157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
- 164. Какие trade-offs между разными архитектурами speculative decoding
- 201. Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI
- 202. Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма
- 211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
- 218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 276. Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется
- 277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
- 281. Что такое sliding window attention и зачем он в Mistral
- 286. Как вы детектируете и фиксите attention sinks в длинных контекстах
- 300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
- 301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
- 302. Что такое warp divergence в CUDA и как он влияет на attention
- 304. Что такое FlashAttention с точки зрения CUDA programming
- 305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
- 311. Что такое CUDA graphs и как они ускоряют LLM инференс
- 320. Что такое ONNX Runtime и когда он выгоден для LLM
- 403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
- 432. Как работает FlashAttention-3 технически Чем отличается от FA2
- 434. Как работает grouped-query attention (GQA) и как trade-off speedquality
- 436. В чем разница между prefill и decode stage в LLM инференсе
- 437. Почему decode stage плохо batchится
- 440. Как работает speculative decoding Как выбрать draft модель
- 442. Что такое prefix caching и когда он эффективен
- 455. Как вы выбираете между online и batch инференсом для LLM
- 459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
- 467. Что такое packing sequences и зачем он нужен
- 474. Как работает FlashAttention для training (не только inference)
- 480. Как работает selective activation recomputation
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 629. Как работает sliding window attention в Mistral и Longformer
- 641. Что такое grouped-query attention (GQA) как компромисс для long context
- 642. Как вы реализуете KV cache для 1M токенов на 8x H100
- 650. Что такое memory-efficient attention для long context на 8x H100
- 653. Что такое position encoding RoPE vs абсолютные позиции vs относительные позиции
- 667. Как работает FlashAttention математически (tiling, recomputation, не материализуя S)