shared state

Определение

Быстрая память на чипе GPU, используемая для tiling и оптимизации операций, таких как FlashAttention, а также паттерн передачи состояния между агентами через шину сообщений (Redis, RabbitMQ).

Где встречается

51. Как вы передаёте контекст между несколькими агентами (multi-agent system)
301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
302. Что такое warp divergence в CUDA и как он влияет на attention
304. Что такое FlashAttention с точки зрения CUDA programming
432. Как работает FlashAttention-3 технически Чем отличается от FA2
474. Как работает FlashAttention для training (не только inference)
650. Что такое memory-efficient attention для long context на 8x H100
667. Как работает FlashAttention математически (tiling, recomputation, не материализуя S)
800+ вопросов

shared state

shared state

Определение

Где встречается

Навигация