shared state
shared state
Определение
Быстрая память на чипе GPU, используемая для tiling и оптимизации операций, таких как FlashAttention, а также паттерн передачи состояния между агентами через шину сообщений (Redis, RabbitMQ).
Где встречается
- 51. Как вы передаёте контекст между несколькими агентами (multi-agent system)
- 301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
- 302. Что такое warp divergence в CUDA и как он влияет на attention
- 304. Что такое FlashAttention с точки зрения CUDA programming
- 432. Как работает FlashAttention-3 технически Чем отличается от FA2
- 474. Как работает FlashAttention для training (не только inference)
- 650. Что такое memory-efficient attention для long context на 8x H100
- 667. Как работает FlashAttention математически (tiling, recomputation, не материализуя S)
- 800+ вопросов