Position Encoding
Position Encoding
Определение
Добавление информации о позиции токена в последовательности к его эмбеддингу, необходимое для архитектуры трансформера, лишённой рекуррентности.
Где встречается
- 2 Как вы решаете проблему lost in the middle при работе с длинными контекстами
- 80. Какие 3 книгикурса вы рекомендуете по production LLM
- 278. Как работает RoPE (Rotary Position Embedding) и чем лучше абсолютных позиций
- 467. Что такое packing sequences и зачем он нужен
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 553. Что такое LayoutLMv3 и зачем он для document understanding
- 651. Как работает attention математически Выведите формулу scaled dot-product attention.
- 652. Почему в формуле attention нужно делить на √d_k Что будет без масштабирования
- 653. Что такое position encoding RoPE vs абсолютные позиции vs относительные позиции
- 668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
- 675. Как работает dropout и зачем он нужен в LLM (regularization)
- 676. Что такое residual stream и как он связан с информационным потоком в трансформере
- 677. Как работает forward pass LLM от токена до вероятности следующего токена
- 800+ вопросов
- 57. Настроить recurrent memory для long context