Attention

Определение

Механизм трансформеров, вычисляющий Attention(Q,K,V)=softmax(QK^T/√d_k)V. Позволяет модели фокусироваться на релевантных частях входных данных, используется в multi-head и self-attention.

Где встречается

40. Как вы объединяете несколько LoRA адаптеров для разных задач
80. Какие 3 книгикурса вы рекомендуете по production LLM
157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
159. Как speculative decoding взаимодействует с KV cache
175. Как детектировать «объяснительно-решенческую декомпозицию»
182. Что такое «схема» (schema) в контексте LLM и как она связана с языковым представлением
203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
206. Что такое KV cache reuse в multi-turn диалогах и как его реализовать
210. Что такое chunked prefill и зачем он нужен
219. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать
276. Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется
278. Как работает RoPE (Rotary Position Embedding) и чем лучше абсолютных позиций
283. Что такое selective attention в контексте long context обработки
295. Что такое logit lens и как он помогает понимать внутренние представления
299. Как работает attention между слоями (cross-layer attention) в современных архитектурах
300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
302. Что такое warp divergence в CUDA и как он влияет на attention
304. Что такое FlashAttention с точки зрения CUDA programming
305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
311. Что такое CUDA graphs и как они ускоряют LLM инференс
367. Что такое Q-Former в BLIP-2 и зачем он нужен
401. Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism
432. Как работает FlashAttention-3 технически Чем отличается от FA2
463. Что такое activation recomputation (checkpointing) и зачем оно нужно
466. Что такое curriculum learning для LLM и как его реализовать
474. Как работает FlashAttention для training (не только inference)
475. Почему tokenizer влияет на стоимость training
480. Как работает selective activation recomputation
540. Как работает Q-Former в BLIP-2 и зачем он нужен
640. Как работает Multi-query attention (MQA) для long context
642. Как вы реализуете KV cache для 1M токенов на 8x H100
646. Как работает attention с линейной сложностью (Linformer, Performer, Longformer)
651. Как работает attention математически Выведите формулу scaled dot-product attention.
652. Почему в формуле attention нужно делить на √d_k Что будет без масштабирования
653. Что такое position encoding RoPE vs абсолютные позиции vs относительные позиции
668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
675. Как работает dropout и зачем он нужен в LLM (regularization)
704. Что такое bank conflicts в shared memory и как их избежать
706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3

Attention

Attention

Определение

Где встречается

Навигация

Attention

Attention

Определение

Где встречается

Навигация