Поиск
- wikiEncoder-decoder transformer
# Encoder-decoder transformer ## Определение Архитектура Transformer, состоящая из энкодера и декодера с cross-attention, используемая для задач sequence-to-sequence…
- wikitransformer block
# transformer block ## Определение Базовый строительный блок трансформера, включающий multi-head self-attention, feed-forward сеть и residual connection с нормализацией…
- wikiTransformerBlock
# TransformerBlock ## Определение Базовый компонент архитектуры Transformer, объединяющий механизм внимания и полносвязную нейронную сеть. ## Где встречается - [[480. Как работает selective activation…
- wikiTransformer Engine
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[324. Что такое…
- wikiSparse Transformers
# Sparse Transformers ## Определение Sparse Transformers — семейство архитектур трансформеров с разреженным вниманием, которое снижает квадратичную сложность вычислений по сравнению с полным…
- wikiUniversal Transformer
# Universal Transformer ## Определение Архитектура нейронной сети, расширяющая Transformer за счёт адаптивного времени вычислений и перекрёстного внимания между слоями. Позволяет модели…
- wikiTransformerLens
# TransformerLens ## Определение Инструмент для анализа внутренних состояний и паттернов внимания в Transformer-моделях, применяемый для выявления attention sinks и аномалий…
- wikioutliers
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[458. Что такое…
- wikisentence-transformers/all-MiniLM-L6-v2
# sentence-transformers/all-MiniLM-L6-v2 ## Определение Лёгкая модель эмбеддингов предложений из библиотеки sentence-transformers. Часто используется в RAG-системах…
- wikisingle-stage autoregressive transformer
# single-stage autoregressive transformer ## Определение Архитектура генерации аудио, использующая одностадийный авторегрессионный трансформер без разделения на этапы. ## Где встречается - [[800+ вопросов…
- wikiDETR
# DETR ## Определение Архитектура детекции объектов на основе Transformer, используемая в Table Transformer и grounding. ## Где встречается - [[542. Как вы парсите…
- wikiRWKV
# RWKV ## Определение Гибридная архитектура нейронной сети, объединяющая рекуррентные вычисления RNN с механизмом внимания Transformer, обеспечивающая линейную сложность инференса. ## Где встречается…
- wikiCompressive Transformer
# Compressive Transformer ## Определение Архитектурный подход к долгосрочной памяти, при котором скрытые состояния рекуррентно сжимаются для эффективного хранения и обработки длинных…
- wikiLinear Transformers
# Linear Transformers ## Определение Трансформеры с линейной сложностью attention за счёт изменения порядка умножения матриц. ## Где встречается - [[276. Как работает attention…
- wikitransformer_lens
# transformer_lens ## Определение Библиотека для анализа активаций нейросетей с помощью forward hooks; используется в representation engineering для изучения внутренних представлений…
- wikiHuggingFace Transformers
# HuggingFace Transformers ## Определение Основная библиотека от Hugging Face, предоставляющая архитектуры и инструменты для работы с трансформерами, включая обучение и оценку…
- wikiEncoder-only transformer
# Encoder-only transformer ## Определение Тип трансформера без декодера, применяемый для понимания документов (например, LayoutLMv3) и других задач, где не требуется…
- wikiBlockwise Parallel Transformer
# Blockwise Parallel Transformer ## Определение Архитектура трансформера, обрабатывающая длинные последовательности путём параллельного вычисления внимания по блокам для повышения эффективности. ## Где встречается…
- wikiединый трансформер
# единый трансформер ## Определение Один decoder-only transformer, обрабатывающий последовательность текстовых и визуальных токенов без раздельных энкодеров, как в мультимодальных моделях…
- answerRWKV (RNN with Transformer attention): как комбинирует RNN и attention?
…В отличие от [[Вики/Transformer\|Transformer]], здесь нет [[Вики/Attention\|multi-head attention]] с [[Вики/logits\|softmax]] — вместо этого один…
- wikinon-autoregressive transformer
# non-autoregressive transformer ## Определение Архитектура трансформера, предсказывающая все токены последовательности параллельно без зависимости от предыдущих. Применяется в задачах, где допустим…
- wikiTransformer-XL
# Transformer-XL ## Определение Архитектура трансформера с рекуррентностью и кэшем предыдущих сегментов, позволяющая обрабатывать длинные контексты без сжатия. ## Где встречается - [[632…
- wikiRecurrent Memory Transformer
# Recurrent Memory Transformer ## Определение Модель, использующая повторные проходы скрытых состояний для вычислений на этапе тестирования (test-time compute). ## Где встречается…
- wikiBPTT
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
- wikidelayed scaling
# delayed scaling ## Определение Метод калибровки масштабов в Transformer Engine для FP8 quantization на H100, при котором scaling factor применяется с…
- wikiMEMIT
# MEMIT ## Определение MEMIT (Mass-Editing Memory in a Transformer) — метод массового редактирования фактов в LLM путём модификации весов, расширяющий ROME…
- wikiNeMo
# NeMo ## Определение Библиотека NVIDIA для обучения и fine-tuning LLM, поддерживающая FP8 через Transformer Engine, а также построение диалоговых AI…
- wikiSwitch Transformer
# Switch Transformer ## Определение Архитектура Mixture of Experts (MoE) с большим числом экспертов и k=1, предложенная Google; первая крупная MoE…
- wikiscaling factors
# scaling factors ## Определение Параметры, используемые Transformer Engine для масштабирования тензоров при конвертации FP16 в FP8, чтобы избежать переполнения. ## Где встречается…
- answerКак работает FP8 quantization на H100 (Transformer Engine)?
…Роль Transformer Engine **[[Вики/Transformer Engine\|Transformer Engine]] (TE)** — это программная надстройка над [[Вики/CUDA\|CUDA]] и [[Вики/Tensor Cores…
- wikiTransformer
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
- wikitransformers
# transformers ## Определение Библиотека от Hugging Face для загрузки, обучения и инференса предобученных моделей на архитектуре Transformer, широко используемая в NLP…
- wikiTable Transformer
# Table Transformer ## Определение Модель на основе DETR для детекции и распознавания таблиц в документах, узкоспециализированная для извлечения табличной информации из…
- wikiEncoder
# Encoder ## Определение Часть архитектуры Transformer, обрабатывающая входные данные (например, log-Mel спектрограммы) и преобразующая их в скрытые представления. ## Где встречается…
- answerКак вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?
…Transformer vs State Space Models (Mamba) vs Hybrid | Характеристика | Transformer (decoder) | Mamba (SSM) | Hybrid (Transformer + SSM) | |----------------|-----------------------|-------------|----------------------------| | [[Вики/FLOPs\|FLOPs per…
- answerЧто такое FP8 инференс на H100 (Transformer Engine)?
…Архитектура H100 и Transformer Engine [[Вики/Transformer Engine\|Transformer Engine]] — это программно-аппаратный [[Вики/Module\|модуль]] на [[Вики/Hopper GPU…
- wikiReceptance
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
- wikiE5M2
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
- wikiE4M3
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
- wikiTrOCR
# TrOCR ## Определение Модель на основе Transformer для распознавания текста, включая рукописный, используемая в OCR для RAG. ## Где встречается - [[550. Как…
- wikidecay rate
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
- wikidynamic scaling
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
- wikismooth quantization
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
- wikioutlier-aware scaling
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
- wikiH100
# H100 ## Определение Графический процессор NVIDIA архитектуры Hopper с поддержкой FP8 через Transformer Engine и MIG, ключевой для инференса LLM. ## Где…
- wikiWKV
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
- wikiper-tensor scaling
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
- wikiViT-L/14
# ViT-L/14 ## Определение Конкретная версия Vision Transformer с размером патча 14x14 пикселей. Применяется как vision encoder в GPT-4V…
- answerКак вы парсите сложные PDF с таблицами и графиками (не просто текст)?
…Он включает детекцию и [[Вики/table understanding\|распознавание таблиц]] (с помощью моделей вроде [[Вики/Table Transformer\|Table Transformer]] или инструментов…
- wikiRNN
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…