Поиск
- wikiLearned positional embeddings
# Learned positional embeddings ## Определение Обучаемая матрица, которая добавляется к эмбеддингам токенов для кодирования их позиции в последовательности; используется в архитектурах…
- wikiAbsolute Positional Encoding
# Absolute Positional Encoding ## Определение Традиционный способ добавления информации о позиции токена в трансформерах, хуже обобщается на длинные последовательности по сравнению…
- wikiRelative Position Encoding
# Relative Position Encoding ## Определение Метод позиционного кодирования, учитывающий относительные расстояния между токенами вместо абсолютных индексов. Примеры: RoPE, ALiBi. Предпочтителен при…
- wikiPosition Encoding
# Position Encoding ## Определение Добавление информации о позиции токена в последовательности к его эмбеддингу, необходимое для архитектуры трансформера, лишённой рекуррентности. ## Где…
- answerКак работает RoPE (Rotary Position Embedding) и чем лучше абсолютных позиций?
…Чтобы внести информацию о позиции каждого токена в последовательности, используются позиционные кодировки. **Encoding|Positional Encoding|Абсолютные Encoding|позиционные эмбеддинги (APE…
- answerКак работает vision encoder в GPT-4V / LLaVA?
…хотя позиционные эмбеддинги сохраняют грубую структуру, детали расположения объектов могут размываться. 3. Ограниченное количество токенов: 256 токенов — это компрессия изображения…
- answerКак работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты?
…Зачем нужны позиционные эмбеддинги в трансформерах Трансформер (Transformer) — архитектура, основанная на механизме self-attention, который по своей природе инвариантен к…
- answerЧто такое streaming LLM для бесконечного контекста (техника rollback)?
…O(L²) по длине последовательности L. - Фиксированные Encoding|позиционные эмбеддинги: большинство моделей (например, GPT, LLaMA) используют **RoPE (Position Embedding)** или…
- answerЧто такое LayoutLMv3 и зачем он для document understanding?
…Он принимает три модальности: | Модальность | Представление | Описание | |-------------|---------------|----------| | Текст | Токены + позиционные эмбеддинги (как в BERT) | Каждый токен документа (после OCR или…
- answerКак работает обратное распространение (backpropagation) в трансформере?
…Градиенты через эмбеддинги и позиционные кодировки [[Вики/embedding\|Token embeddings]]: градиент по матрице эмбеддингов \(E\) — это просто градиент по входу…
- answerЧто такое индуктивные biases трансформеров? (positional invariance, order sensitivity)?
…Attention\|attention]]. - Необходимость явного указания порядка ([[Вики/Position Encoding\|позиционные эмбеддинги]]). [[Вики/индуктивный bias\|Индуктивный bias]] [[Вики/Transformer\|Трансформер]] «считает…
- answerКак работает CLIP (Contrastive Language-Image Pre-training) внутренне?
…Как вы проектируете векторную БД с миллиардом векторов при ограниченном бюджете\|535]] | Мультимодальные эмбеддинги и их роль в RAG | | [[537…
- answerЧто такое learning-to-rank (LTR) и как он применяется к retrieval для LLM?
…документы разбиваются на чанки, строятся [[Вики/embedding\|эмбеддинги]] и [[Вики/Inverted index\|инвертированный индекс]]. 2. [[Вики/first-stage retrieval\|First…
- answerЧто такое Q-Former в BLIP-2 и зачем он нужен?
…Важно [[Вики/Q-Former\|Q-Former]] не использует [[Вики/Position Encoding\|позиционные эмбеддинги]] для [[Вики/Query Tokens\|query tokens]] — они…
- answerЧто такое residual stream и как он связан с информационным потоком в трансформере?
…Это позволяет обучать очень глубокие сети (десятки слоёв). | | Сохранение информации | Исходные эмбеддинги и позиционные сигналы не затираются последующими слоями. Модель…
- answerЧто такое LambdaMART и как он используется для reranking в RAG?
…и документа (bi-encoder), BM25 score, TF-IDF similarity | | Позиционные | Ранг документа в выдаче первого этапа, номер чанка в исходном…
- answerКак работает LayerNorm и RMSNorm? В чем разница и почему RMSNorm быстрее?
…Как работает кросс-энтропия (cross-entropy loss) для LLM обучения\|656]] | Позиционные эмбеддинги (RoPE, AliBi) | | [[657. Что такое KL divergence…
- answerКак вы решаете проблему «lost in the middle» при работе с длинными контекстами?
…Первые токены имеют больше шансов получить вес, последние — recency bias | | Позиционные эмбеддинги (RoPE | Относительные позиции хорошо работают для близких токенов…