Поиск

wikirecurrent backpropagation
# recurrent backpropagation ## Определение Метод обратного распространения ошибки через рекуррентные связи памяти, применяемый при обучении Infini-attention для работы с бесконечным…
wikibackpropagation
# backpropagation ## Определение Метод обучения нейронных сетей, использующий цепное правило для вычисления градиентов функции потерь по всем параметрам. Применяется на этапе…
answerЧто такое pipeline parallelism и проблема pipeline bubbles?
…Временная линия: - GPU1: [[Вики/backpropagation\|forward]] (t_f) → [[Вики/backpropagation\|backward]] (t_b) - GPU2: простаивает (ожидает [[Вики/backpropagation\|forward]] от…
wikiBPTT
# BPTT ## Определение Backpropagation Through Time (BPTT) — метод обучения рекуррентных нейронных сетей, разворачивающий сеть во времени и применяющий обратное распространение ошибки…
wikibackward pass
# backward pass ## Определение Этап обучения нейронной сети, на котором вычисляются градиенты параметров с помощью обратного распространения, часто требующий коммуникации между…
answerКак работает selective activation recomputation?
…Каждый шаг требует [[Вики/backpropagation\|forward pass]] (и иногда [[Вики/backpropagation\|backward]] при обучении). Если [[Вики/agent\|агент]] использует большую…
answerКак работает FlashAttention для training (не только inference)?
…Стандартный [[Вики/backpropagation\|backward]] требует матрицу P ([[Вики/logits\|softmax]]) и dO ([[Вики/gradients\|градиент]] выходного лосса), чтобы посчитать dQ…
answerКак работает tree search (MCTS) для LLM агентов?
…Selection → Expansion → Simulation → Backpropagation Итерация 2: Selection → Expansion → Simulation → Backpropagation ... Повтор N раз → выбор лучшего пути из корня ``` Рассмотрим каждую…
answerЧто такое activation recomputation (checkpointing) и зачем оно нужно?
…каждый [[Вики/chunking\|сегмент]] пересчитывается один раз за [[Вики/backpropagation\|backward]]. - Если сегментов K, то [[Вики/backpropagation\|forward]] выполняется K…
answerКак работает tensor parallelism для LLM training? Чем отличается от инференса?
…По сравнению с [[Вики/backpropagation\|forward]], при обучении возникает **дополнительный [[Вики/AllReduce\|AllReduce]] для градиентов**. Более того, при [[Вики/backpropagation…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить MCTS для математических задач
…Реализация UCB, rollout и backpropagation (2–3 часа) Действия 1. **[[Вики/Selection\|Selection]] (выбор)** — рекурсивно спускаемся, пока [[Вики/node\|узел…
wikiMonte Carlo Tree Search
…Selection, Expansion, Simulation, Backpropagation. Используется для планирования последовательности действий LLM-агентов. ## Где встречается - [[570. Что такое tree search agents (MCTS…
answerКак работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)?
…вместо дискретных токенов мы работаем с непрерывными векторными представлениями — эмбеддингами токенов или скрытыми состояниями. - **[[Вики/backward pass\|Backpropagation]]**: [[Вики/backpropagation…
answerКак работает обратное распространение (backpropagation) в трансформере?
…Как работает обратное распространение (backpropagation) в трансформере? ## Краткий тезис [[Вики/backpropagation\|Обратное распространение]] ([[Вики/backward pass\|backpropagation]]) в трансформере — это…
answerКак работает FSDP (Fully Sharded Data Parallel) в PyTorch?
…один [[Вики/AllGather\|AllGather]] ([[Вики/backpropagation\|forward]]) + один [[Вики/AllGather\|AllGather]] ([[Вики/backpropagation\|backward]]) + один [[Вики/ReduceScatter\|ReduceScatter]] ([[Вики/backpropagation…
answerКак работает Mixed Precision Training (FP16 + FP32 master веса)?
…Выполнить `[[Вики/backpropagation\|backward]]()` – градиенты теперь в [[Вики/FP16\|FP16]], но масштабированы. 4. Перед шагом оптимизатора разделить градиенты на `[[Вики…
answerКак работает gradient checkpointing в DeepSpeed?
…Все они сохраняются [[Вики/In-Memory\|в памяти]]. **[[Вики/backpropagation\|Обратный проход]] ([[Вики/backpropagation\|backward]]):** используем сохранённые aL, aL-1…
answerЧто такое tree search agents (MCTS for LLM) и когда они эффективны?
…4. **[[Вики/backpropagation\|Backpropagation]]** ([[Вики/backpropagation\|обратное распространение]]): обновляем статистику (\(w_i, n_i\)) для всех узлов на пути от…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить search-based inference (AlphaSearch)
…Использовать это как reward для backpropagation. - [[Вики/Option B\|Option B]] Reward model: загрузить предобученный ревард-модель (например, `OpenAssistant/reward…
answerКак speculative decoding ускоряет inference? (детально)
…Идея в том, что [[Вики/large model\|большая модель]] может выполнить один [[Вики/backpropagation\|forward pass]] на последовательности из K…
answerЧто такое Wave Decoding и чем отличается от стандартного авторегрессивного?
…количество [[Вики/backpropagation\|forward]] passes уменьшается в wave_len раз (при wave_len=2 — в 2 раза, при wave_len…
answerЧто такое torch.compile и как он ускоряет training?
…За счёт чего достигается ускорение training [[Вики/speedup\|Ускорение]] в [[Вики/backpropagation\|forward]] + [[Вики/backpropagation\|backward]] складывается из нескольких факторов…
answerКак проектировать schema registry для метаданных RAG?
…Типы эволюции - **[[Вики/backpropagation\|Backward]]‑compatible** — новая [[Вики/cognitive schema\|схема]] может читать данные, записанные старой схемой (разрешены: добавление поля…
answerЧто такое ∇-Reasoner (nabla-reasoner) и как он использует градиентный спуск на этапе теста?
…каждый шаг требует [[Вики/backpropagation\|backward pass]], что дороже [[Вики/backpropagation\|forward pass]]. Для длинных последовательностей (например, 10 шагов) [[Вики…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить message schema registry
…Дополнительно можно сравнивать структуру (список [[Вики/required field\|required]]). - Принимать параметр `compatibilityType` (`[[Вики/backpropagation\|backward]]`, `[[Вики/backpropagation\|forward]]`, `[[Вики/full…
answerКак работает FlashAttention математически (tiling, recomputation, не материализуя S)?
…Как это работает - На [[Вики/backpropagation\|forward]] сохраняются только статистики `m_i, l_i` и случайные dropout-маски (если используются…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Агент с tree search (MCTS) для математической задачи
…Вики/max_depth\|max_depth]]; подсчитать накопленную награду. - **[[Вики/backpropagation\|Backpropagation]]:** обновить `[[Вики/Visit count\|visits]]` и `total_reward` на…
answerЧто такое «message schema evolution» (Avro/Protobuf)?
…Типы проверок совместимости - `[[Вики/backpropagation\|BACKWARD]]` – новый читатель может читать старые данные. - `[[Вики/backpropagation\|FORWARD]]` – старый читатель может читать новые…
answerЧто такое FlashAttention с точки зрения CUDA programming?
…Как это делается - Во время [[Вики/backpropagation\|forward]] сохраняются только статистики (row max и row sum) для каждого блока — это…
answerКак работает distributed optimizer в PyTorch (torch.distributed.optim)?
…После [[Вики/backpropagation\|backward]] выполняется [[Вики/AllReduce\|AllReduce]] градиентов. [[Вики/Memory\|Память]]: полное [[Вики/state\|состояние]] на каждом [[Вики/GPU…
answerЧто такое DSPy в контексте агентов?
…Ключевая идея: [[Вики/backpropagation\|обратное распространение]] ([[Вики/backward pass\|backpropagation]]) через [[Вики/LLM pipeline\|LLM-пайплайн]]. [[Вики/DSPy\|DSPy]] запускает…
answerКак PCIe bottleneck проявляется в multi-GPU инференсе?
…На каждом [[Вики/backpropagation\|forward pass]]: 1. Каждый [[Вики/GPU\|GPU]] вычисляет свою часть линейного преобразования (например, `X @ W_i…
answerКак работает градиентный анализ для объяснения решений LLM?
…token\|токен]] [PAD]); вычислительно дороже (нужно \( m \) [[Вики/backpropagation\|forward]]+[[Вики/backpropagation\|backward]] проходов). ### 2.4 SHAP с градиентным приближением…
answerЧто такое DeepSpeed ZeRO-Offload и когда он полезен?
…После [[Вики/backpropagation\|backward]] градиенты пересылаются в [[Вики/CPU\|CPU]] (через [[Вики/PCIe\|PCIe]]). 3. На [[Вики/CPU\|CPU]] выполняется…
answerКак работают CUDA graphs и когда их использовать?
…Если чистый [[Вики/compute\|compute]] [[Вики/time\|time]] [[Вики/backpropagation\|forward pass]] 50 мс, то [[Вики/overhead\|overhead]] добавляет 12…
answerЧто такое vanishing / exploding gradients в трансформерах и как их предотвратить?
…Математическая [[Вики/RCA\|причина]] При обратном распространении [[Вики/ошибки\|ошибки]] ([[Вики/backward pass\|backpropagation]]) [[Вики/gradients\|градиент]] на каждом слое…
answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?
…Каждая [[Вики/iteration\|итерация]] генерации (один [[Вики/backpropagation\|forward pass]] модели) [[Вики/Inference scheduler\|scheduler]]: 1. Получает список всех активных…
answerЧто такое logits и как они связаны с вероятностями? temperature scaling?
…Как работает обратное распространение (backpropagation) в трансформере\|663]] | Что такое greedy decoding и beam search? | | [[664. Что такое vanishing exploding…
answerКак работают CUDA streams и как они помогают оверлапить compute и communication?
…один stream для [[Вики/backpropagation\|forward]], другой для [[Вики/backpropagation\|backward]], третий для передачи данных на следующий ускоритель. --- ## 8. Типичные…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить wave decoding для коротких ответов
…конкатенация `input_ids` + `draft_ids` (полная [[Вики/sequence\|последовательность]]). - [[Вики/backpropagation\|Forward pass]] [[Вики/target model\|target]] с `use_cache…
answerЧто такое chunked prefill и зачем он нужен?
…Весь [[Вики/prompt\|промпт]] длины `L` подаётся на вход модели за один [[Вики/backpropagation\|forward pass]]. 2. [[Вики/model\|Модель…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать process reward model (PRM)
…Ожидаемый результат этапа Класс модели с [[Вики/backpropagation\|forward]], даталоадер, конфигурация обучения (lr=1e-5, [[Вики/Batch inference\|batch]]=4…
answerЧто такое data contract между сервисами в RAG пайплайне?
…и [[Вики/backpropagation\|backward]], и [[Вики/backpropagation\|forward]]. ### 5.2 Стратегии управления breaking changes 1. **[[Вики/dual write\|Двойная запись…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить RWKV для инференса
…передать `input_ids.unsqueeze(0)`, замерить `[[Вики/forward pass\|model.forward]]()` без генерации (просто один [[Вики/backpropagation\|forward pass]]) - Для…
answerЧто такое Assertions в DSPy и зачем они нужны?
…Они срабатывают после вызова [[Вики/GPT-4o\|LLM]] внутри метода `[[Вики/backpropagation\|forward]]`. Важно: [[Вики/Assertions\|Assertions]] **не влияют на…
answerЧто такое EAGLE-3 и чем он отличается от стандартного speculative decoding?
…Почему это работает - [[Вики/draft model\|Draft model]] намного меньше (например, 100M параметров против 7B), поэтому её [[Вики/backpropagation\|forward…
answerКак работает Infini-attention (Google, 2024) для бесконечного контекста?
…через [[Вики/Memory\|память]] (трюк с [[Вики/recurrent backpropagation\|recurrent backpropagation]] или [[Вики/truncated BPTT\|truncated BPTT]]). --- ## 8. Сравнение с…
answerКак вы деплоите LLM с requirement <100ms latency при throughput 1000 req/s? Архитектура.
…Если [[Вики/draft model\|draft-модель]] угадала, мы получаем K токенов за один [[Вики/backpropagation\|forward]] большой модели. Типичное [[Вики…
answerКак работает Toolformer (обучение агента использованию инструментов)?
…Вики/Loss masking\|Loss masking]] | Игнорирование обычных токенов при backpropagation; обновляются только веса, отвечающие за API-токены | | [[Вики/Toolformer\|Toolformer…
answerКак работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?
…все веса обновляются совместно. - Простота инференса — достаточно одного [[Вики/backpropagation\|forward pass]] трансформера. ## 8. Ограничения и вызовы - Вычислительная сложность — [[Вики…