attention masking
attention masking
Определение
Техника, ограничивающая область внимания модели; используется для игнорирования padding при packing последовательностей или для реализации авторегрессионной генерации (causal attention).
Где встречается
- 484. Что такое ReFT (Representation Fine-Tuning) и когда он лучше LoRA
- 543. Как работает Whisper архитектурно для ASR (Automatic Speech Recognition)
- 651. Как работает attention математически Выведите формулу scaled dot-product attention.
- 677. Как работает forward pass LLM от токена до вероятности следующего токена
- 800+ вопросов
- 56. Реализовать diffusion LLM (PLANNER)