中文翻译暂不可用,显示俄语原文。
Attention
Attention
Определение
Механизм трансформеров, вычисляющий Attention(Q,K,V)=softmax(QK^T/√d_k)V. Позволяет модели фокусироваться на релевантных частях входных данных, используется в multi-head и self-attention.
Где встречается
- 40. Как вы объединяете несколько LoRA адаптеров для разных задач
- 80. Какие 3 книгикурса вы рекомендуете по production LLM
- 157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
- 159. Как speculative decoding взаимодействует с KV cache
- 175. Как детектировать «объяснительно-решенческую декомпозицию»
- 182. Что такое «схема» (schema) в контексте LLM и как она связана с языковым представлением
- 203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
- 206. Что такое KV cache reuse в multi-turn диалогах и как его реализовать
- 210. Что такое chunked prefill и зачем он нужен
- 219. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать
- 276. Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется
- 278. Как работает RoPE (Rotary Position Embedding) и чем лучше абсолютных позиций
- 283. Что такое selective attention в контексте long context обработки
- 295. Что такое logit lens и как он помогает понимать внутренние представления
- 299. Как работает attention между слоями (cross-layer attention) в современных архитектурах
- 300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
- 301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
- 302. Что такое warp divergence в CUDA и как он влияет на attention
- 304. Что такое FlashAttention с точки зрения CUDA programming
- 305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
- 311. Что такое CUDA graphs и как они ускоряют LLM инференс
- 367. Что такое Q-Former в BLIP-2 и зачем он нужен
- 401. Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism
- 432. Как работает FlashAttention-3 технически Чем отличается от FA2
- 463. Что такое activation recomputation (checkpointing) и зачем оно нужно
- 466. Что такое curriculum learning для LLM и как его реализовать
- 474. Как работает FlashAttention для training (не только inference)
- 475. Почему tokenizer влияет на стоимость training
- 480. Как работает selective activation recomputation
- 540. Как работает Q-Former в BLIP-2 и зачем он нужен
- 640. Как работает Multi-query attention (MQA) для long context
- 642. Как вы реализуете KV cache для 1M токенов на 8x H100
- 646. Как работает attention с линейной сложностью (Linformer, Performer, Longformer)
- 651. Как работает attention математически Выведите формулу scaled dot-product attention.
- 652. Почему в формуле attention нужно делить на √d_k Что будет без масштабирования
- 653. Что такое position encoding RoPE vs абсолютные позиции vs относительные позиции
- 668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
- 675. Как работает dropout и зачем он нужен в LLM (regularization)
- 704. Что такое bank conflicts в shared memory и как их избежать
- 706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3