causal masking
causal masking
Определение
Маска в механизме внимания, запрещающая токенам «заглядывать» в будущие токены. Необходима для авторегрессивных моделей и может вызывать warp divergence на GPU.
Где встречается
- 302. Что такое warp divergence в CUDA и как он влияет на attention
- 363. Как работает Whisper (architecture, tokenization, training) для ASR
- 440. Как работает speculative decoding Как выбрать draft модель
- 653. Что такое position encoding RoPE vs абсолютные позиции vs относительные позиции
- 668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
- 711. Как работает speculative execution на GPU для LLM (branch prediction)
- 60. Настроить гибрид (Mamba + Attention)
- 67. Реализовать latent reasoning (∇-Reasoner)