Поиск

answerПочему трансформеры до сих пор побеждают SSM на большинстве задач (2026)?
…Почему трансформеры до сих пор побеждают SSM на большинстве задач (2026)? ## Краткий тезис [[Вики/transformers\|Трансформеры]] сохраняют [[Вики/leader election…
wikiSetRank
# SetRank ## Определение Метод ранжирования, использующий трансформеры для учёта взаимосвязей между документами. ## Где встречается - [[371. Что такое LambdaMART и как он…
wikiLinear Transformers
# Linear Transformers ## Определение Трансформеры с линейной сложностью attention за счёт изменения порядка умножения матриц. ## Где встречается - [[276. Как работает attention…
answerКогда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context?
…Однако [[Вики/transformers\|трансформеры]] остаются сильнее в задачах сложного рассуждения, требующих точного внимания к редким, но критически важным токенам далеко…
wikitransformers
# transformers ## Определение Библиотека от Hugging Face для загрузки, обучения и инференса предобученных моделей на архитектуре Transformer, широко используемая в NLP…
answerЧто такое индуктивные biases трансформеров? (positional invariance, order sensitivity)?
…Это делает [[Вики/transformers\|трансформеры]] естественными для задач, где контекст целиком известен (машинный перевод, [[Вики/summarization\|суммаризация]]), но менее подходящими…
answerЧто такое residual stream и как он связан с информационным потоком в трансформере?
…Без [[Вики/residual connection\|residual]] [[Вики/CUDA streams\|stream]] глубокие [[Вики/transformers\|трансформеры]] страдали бы от затухания градиентов и [[Вики…
answerЧто такое LLM для symbolic regression (AI Feynman) и как это работает?
…Нейросетевые подходы — используют [[Вики/RNN\|RNN]] или [[Вики/transformers\|трансформеры]] для генерации выражений, но требуют много данных. [[Вики/AI Feynman…
answerЧто такое vanishing / exploding gradients в трансформерах и как их предотвратить?
…Причины в трансформерах [[Вики/transformers\|Трансформеры]] особенно подвержены этим проблемам по нескольким причинам: - Глубина Современные [[Вики/transformers\|трансформеры]] ([[Вики/GPT…
answerЧто такое Test-Time Training (TTT) слои и как они работают?
…Почему трансформеры до сих пор побеждают SSM на большинстве задач (2026)\|717]] | Что такое Agentic RAG и как он устроен…
wikisentence-transformers
# sentence-transformers ## Определение Библиотека от Hugging Face для генерации плотных эмбеддингов предложений с помощью предобученных трансформеров. Широко применяется в self…
answerПочему BF16 лучше FP16 для training?
…когда выбирать BF16, а когда FP16 - [[Вики/mixed precision training\|BF16]] — выбор по умолчанию для обучения больших моделей (LLM, трансформеры…
answerЧто такое CUDA graphs и как они ускоряют LLM инференс?
…Почему LLM инференс — идеальный кандидат для CUDA graphs [[Вики/GPT-4o\|LLM]] ([[Вики/transformers\|трансформеры]]) выполняют фиксированную [[Вики/sequence\|последовательность…
answerЧто такое selective attention в контексте long context обработки?
…может быть добавлен в существующие [[Вики/transformers\|трансформеры]] без полного переобучения (например, [[Вики/Quest\|Quest]]). [[Вики/constraints\|Ограничения]] - [[Вики/Information…
answerЧто такое residual connections и зачем они нужны в трансформере?
…переобучение | | Возможность строить очень глубокие модели | Без residual connections трансформеры с 12+ слоями практически не обучались бы | | Сохранение информации о…
answerЧто такое RLAIF (RL from AI Feedback) и как он масштабируется?
…В реальности используются большие [[Вики/transformers\|трансформеры]] и [[Вики/Proximal Policy Optimization\|PPO]]. --- ## 8. Метрики оценки RLAIF - [[Вики/preference agreement…
answerЧто такое operator fusion в компиляторах и какие паттерны fusion существуют?
…Когда применимо в архитектурах с несколькими параллельными ветвями (Inception, ResNeXt, некоторые [[Вики/transformers\|трансформеры]]). ### 2.4 Composite fusion (композитное слияние…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать latent reasoning (COCONUT)
…Технологический стек | Компонент | Инструменты | Назначение | |-----------|-------------|------------| | Фреймворк | PyTorch 2.x | Построение и обучение модели | | Трансформеры | Hugging Face Transformers | Базовая архитектура, токенизатор…
answerКак работает Mamba (State Space Model) и чем она лучше трансформера?
…история диалога]], несколько документов, результаты вызовов инструментов. [[Вики/transformers\|Трансформеры]] с [[Вики/Attention\|attention]] быстро упираются в лимит контекста (даже…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Agentic RAG с саморефлексией
…Выбрать 5–7 статей из Википедии (по одной теме, например, «[[Вики/transformers\|Трансформеры]]» или «Собаки породы хаски»). 2. Разбить статьи…
answerКак LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?
…4.1 Почему Mamba, а не трансформер? [[Вики/transformers\|Трансформеры]] имеют квадратичную сложность по длине последовательности. Белки могут быть длиной…
answerЧто такое LambdaMART и как он используется для reranking в RAG?
…использует трансформеры для учёта взаимосвязей между документами. - Гибридные подходы: LambdaMART + cross-encoder как один из признаков. --- ## Пет-проект для закрепления…
answerКак работает LayerNorm и RMSNorm? В чем разница и почему RMSNorm быстрее?
…не для последовательностей | | [[Вики/LayerNorm\|LayerNorm]] | По признакам токена | Трансформеры, RNN | | [[Вики/RMSNorm\|RMSNorm]] | По признакам токена (без среднего) | Современные…
answerКак вы калибруете вероятности LLM для classification задач?
…на границе решения не получает сигнала о неопределённости. | | Архитектура | Трансформеры с residual connections и LayerNorm могут усиливать уверенность на этапе…
answerКак проектировать аукцион для allocation вычислительных ресурсов между агентами?
…Почему трансформеры до сих пор побеждают SSM на большинстве задач (2026)\|717]] | Как логировать действия агентов? | | [[711. Как работает speculative…
answerЧто такое streaming LLM для бесконечного контекста (техника rollback)?
…ограничения стандартных LLM Стандартные [[Вики/transformers\|трансформеры]] имеют фиксированную длину контекста (например, 4K, 8K, 128K токенов). При превышении лимита [[Вики…
answerКак работает обратное распространение (backpropagation) в трансформере?
…Обратное распространение через Feed-Forward Network (SwiGLU) Современные трансформеры (LLaMA, GPT-4) используют [[Вики/SwiGLU\|SwiGLU]]: \[ \text{FFN}(x) = \text…
answerЧто такое position encoding? RoPE vs абсолютные позиции vs относительные позиции?
…NoPE]] (Kazemnejad et al., 2023) — показано, что [[Вики/transformers\|трансформеры]] могут выучить позиции без явного кодирования, если использовать **[[Вики/causal…
answerКак работает RoPE (Rotary Position Embedding) и чем лучше абсолютных позиций?
…Сравнение с другими подходами | Метод | Тип позиционирования | Параметры | Экстраполяция | Применение | |-------|----------------------|-----------|---------------|------------| | **Absolute (синусоидальные)** | Абсолютное | Нет | Плохая | Базовые трансформеры | | **Absolute (обучаемые)** | Абсолютное…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Рассчитать cost per 1M tokens для разных моделей
…Либо запустить на CPU (трансформеры с `device='cpu'`) — тогда latency будет выше, но cost считать по виртуальному GPU-часу. | | **API…
indexИндекс разборов
…Почему трансформеры до сих пор побеждают SSM на большинстве задач (2026)\|717. Почему трансформеры до сих пор побеждают SSM на…
indexОглавление
…Почему трансформеры до сих пор побеждают SSM на большинстве задач (2026)\|717. Почему трансформеры до сих пор побеждают SSM на…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Почему трансформеры до сих пор побеждают SSM на большинстве задач (2026)?** > _Ответ:_ > > - Attention обеспечивает произвольный доступ к любому прошлому токену…