FlashAttention

Определение

Memory-efficient механизм внимания с IO-aware дизайном, использующий tiling, recomputation и kernel fusion для снижения сложности по памяти с O(n²) до O(n). Поддерживает длинные контексты до 1M токенов.

Где встречается

7. Как вы уменьшаете latency RAG-системы (время ответа)
33. Какие фреймворки для fine-tuning вы используете
61. Как вы разворачиваете LLM в production (self-hosted)
87. Как вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов
157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
164. Какие trade-offs между разными архитектурами speculative decoding
201. Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI
202. Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма
211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
276. Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется
277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
281. Что такое sliding window attention и зачем он в Mistral
286. Как вы детектируете и фиксите attention sinks в длинных контекстах
300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
302. Что такое warp divergence в CUDA и как он влияет на attention
304. Что такое FlashAttention с точки зрения CUDA programming
305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
311. Что такое CUDA graphs и как они ускоряют LLM инференс
320. Что такое ONNX Runtime и когда он выгоден для LLM
403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
432. Как работает FlashAttention-3 технически Чем отличается от FA2
434. Как работает grouped-query attention (GQA) и как trade-off speedquality
436. В чем разница между prefill и decode stage в LLM инференсе
437. Почему decode stage плохо batchится
440. Как работает speculative decoding Как выбрать draft модель
442. Что такое prefix caching и когда он эффективен
455. Как вы выбираете между online и batch инференсом для LLM
459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
467. Что такое packing sequences и зачем он нужен
474. Как работает FlashAttention для training (не только inference)
480. Как работает selective activation recomputation
485. Как вы дебажите training instability (loss spikes, divergence)
629. Как работает sliding window attention в Mistral и Longformer
641. Что такое grouped-query attention (GQA) как компромисс для long context
642. Как вы реализуете KV cache для 1M токенов на 8x H100
650. Что такое memory-efficient attention для long context на 8x H100
653. Что такое position encoding RoPE vs абсолютные позиции vs относительные позиции
667. Как работает FlashAttention математически (tiling, recomputation, не материализуя S)

FlashAttention

FlashAttention

Определение

Где встречается

Навигация

FlashAttention

FlashAttention

Определение

Где встречается

Навигация