Flash Attention 2

Определение

Оптимизированная реализация механизма внимания, снижающая вычислительные затраты и задержку за счёт параллелизма по головам и меньшего использования регистров. Поддерживает multi-query attention и служит базой для FlashAttention-3.

Где встречается

64. Как вы обеспечиваете низкую задержку (500ms) для LLM
304. Что такое FlashAttention с точки зрения CUDA programming
425. Как работает sequence parallelism в контексте LLM
432. Как работает FlashAttention-3 технически Чем отличается от FA2
436. В чем разница между prefill и decode stage в LLM инференсе
441. EAGLE-3 vs Medusa-2 vs Hydra сравнение speculative decoding методов.
467. Что такое packing sequences и зачем он нужен
474. Как работает FlashAttention для training (не только inference)
627. Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)
631. Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)
800+ вопросов

Flash Attention 2

Flash Attention 2

Определение

Где встречается

Навигация