Position Encoding

Определение

Добавление информации о позиции токена в последовательности к его эмбеддингу, необходимое для архитектуры трансформера, лишённой рекуррентности.

Где встречается

2 Как вы решаете проблему lost in the middle при работе с длинными контекстами
80. Какие 3 книгикурса вы рекомендуете по production LLM
278. Как работает RoPE (Rotary Position Embedding) и чем лучше абсолютных позиций
467. Что такое packing sequences и зачем он нужен
485. Как вы дебажите training instability (loss spikes, divergence)
553. Что такое LayoutLMv3 и зачем он для document understanding
651. Как работает attention математически Выведите формулу scaled dot-product attention.
652. Почему в формуле attention нужно делить на √d_k Что будет без масштабирования
653. Что такое position encoding RoPE vs абсолютные позиции vs относительные позиции
668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
675. Как работает dropout и зачем он нужен в LLM (regularization)
676. Что такое residual stream и как он связан с информационным потоком в трансформере
677. Как работает forward pass LLM от токена до вероятности следующего токена
800+ вопросов
57. Настроить recurrent memory для long context

Position Encoding

Position Encoding

Определение

Где встречается

Навигация