Поиск
- wikiRNN
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
- wikiRWKV
# RWKV ## Определение Гибридная архитектура нейронной сети, объединяющая рекуррентные вычисления RNN с механизмом внимания Transformer, обеспечивающая линейную сложность инференса. ## Где встречается…
- wikiReceptance
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
- wikidecay rate
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
- wikiWKV
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
- wikiBPTT
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
- wikiresidual connections
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
- wikigating
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
- wikiFeature-Aware Speculative Decoding
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
- wikiLSTM
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
- wikiLinear attention
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
- answerЧто такое индуктивные biases трансформеров? (positional invariance, order sensitivity)?
…например, [[Вики/CNN\|CNN]] предполагает локальность и трансляционную инвариантность (свёртки), [[Вики/RNN\|RNN]] — последовательную обработку и [[Вики/recurrence\|рекуррентность]], **[[Вики…
- answerRWKV (RNN with Transformer attention): как комбинирует RNN и attention?
…RWKV (RNN with Transformer attention): как комбинирует RNN и attention? ## Краткий тезис [[Вики/RWKV\|RWKV]] ([[Вики/RWKV\|Receptance Weighted Key…
- wikirecurrence
# recurrence ## Определение Свойство отсутствия рекуррентности в трансформере (в отличие от RNN). ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…
- wikiparallelizability
# parallelizability ## Определение Свойство модели обрабатывать все токены входной последовательности параллельно, характерное для трансформеров в отличие от RNN. ## Где встречается - [[800…
- wikiLayerNorm
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
- wikiMulti-Head Attention
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
- wikiOrthogonal initialization
# Orthogonal initialization ## Определение Метод инициализации весов ортогональной матрицей, который сохраняет норму сигнала в RNN/LSTM, улучшая сходимость. ## Где встречается - [[665…
- wikiDeepSpeech
# DeepSpeech ## Определение ASR-модель на основе RNN (LSTM) и CTC, устаревшая, но лёгкая. Используется для streaming, но уступает по качеству…
- wikiTransformer
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
- answerHyena: как заменить attention на свертки, сохранив качество?
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention\|714]] | Linear Attention: Performer, Linformer | | [[716. Когда SSM-архитектуры (Mamba…
- answerКак работает RMSNorm (Root Mean Square Normalization) и чем лучше LayerNorm?
…среднего]]) не является критически важным для нормализации в [[Вики/RNN\|RNN]] и [[Вики/Transformer\|Transformer]]. [[Вики/normalization\|Нормализация]] по RMS…
- answerЧто такое Recurrent Depth в контексте LLM и зачем это нужно?
…Recurrent Depth (рекуррентная глубина) [[Вики/Recurrent Depth\|Recurrent Depth]] — это концепция, заимствованная из рекуррентных нейронных сетей ([[Вики/RNN\|RNN]]), но…
- answerЧто такое LLM для symbolic regression (AI Feynman) и как это работает?
…Медленно сходится, часто застревает в локальных оптимумах. - Байесовские методы — требуют априорного распределения на формулы. - Нейросетевые подходы — используют [[Вики/RNN\|RNN…
- answerЧто такое Audio RAG (RAG для аудиофайлов)?
…Пример промпта: ``` Контекст: [00:00-00:30] "Сегодня мы обсудим нейросети..." [00:31-01:00] "Основные архитектуры — CNN, RNN..." Вопрос…
- answerКак работает Mamba (State Space Model) и чем она лучше трансформера?
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention\|714]] - Индекс: [[00. Индекс разборов]]
- answerКак вы дебажите training instability (loss spikes, divergence)?
…Это происходит из-за глубоких сетей ([[Вики/RNN\|RNN]], [[Вики/Transformer\|Transformer]]) или плохой инициализации. В [[Вики/GPT-4o\|LLM…
- answerЧто такое Cooperative Groups в CUDA и как использовать для attention?
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention\|714]] | Оптимизация attention: kernel fusion, tiling | | [[715. Hyena как заменить…
- answerКак работает LayerNorm и RMSNorm? В чем разница и почему RMSNorm быстрее?
…Основные подходы: - **[[Вики/BatchNorm\|Batch Normalization]]** — [[Вики/normalization\|нормализация]] по батчу (неудобна для RNN/трансформеров из-за зависимости от длины…
- answerЧто такое mechanism design для multi-agent systems и как применить к LLM-агентам?
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention\|714]] | Как LLM-агенты могут планировать совместные действия? | | [[715. Hyena…
- answerЧто такое «Clone-Structured Causal Graphs» (CSCG) и как они связаны со схемами?
…и те же веса применяются к разным входам (свёртки, RNN) | CSCG не требует общих весов; клонируется структура, а не параметры…
- answerКак работает Whisper (architecture, tokenization, training) для ASR?
…Self-supervised + fine-tune | ~50 | 300M | | [[Вики/DeepSpeech\|DeepSpeech]] | RNN (LSTM) | Supervised | ~10 | 100M | | Conformer | CNN + transformer encoder | Supervised | ~50…
- answerКак работают CUDA graphs и когда их использовать?
…единицы мс) незначителен по сравнению с compute. | | **Рекуррентные модели (RNN/LSTM)** | Граф не может зацикливаться; каждый шаг требует отдельного графа…
- answerКак работает perplexity и как ее интерпретировать? Связь с cross-entropy?
…Нейросетевые модели (RNN, Transformer) снизили PPL до 20–40, а современные LLM — до 10–20. | Тип модели | Типичная PPL (на…
- answerЧто такое gradient clipping и зачем он нужен при обучении LLM?
…value clipping) | 0.5 – 5.0 | Редко, чаще для RNN | В практике OpenAI (GPT-3) использовали clip_norm = 1.0…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить recurrent memory для long context
…ТЗ) | | 123 | Архитектура Transformer-XL | | 45 | Рекуррентные нейронные сети (RNN, GRU, LSTM) | | 89 | Longformer и большие контексты | | 234 | Memory Networks…
- answerЧто такое packing sequences и зачем он нужен?
…Реализация packing в PyTorch (пример) ```python from transformers import DataCollatorForSeq2Seq, AutoTokenizer from torch.nn.utils.rnn import pad_sequence class…
- answerКак работает инициализация весов в LLM (Xavier, Kaiming, почему важна)?
…Сохраняет норму сигнала. | RNN, LSTM (для борьбы с затуханием) | | [[Вики/Small Initialization\|Small init]] | Веса ~ N(0, 0.01). Простая…
- answerКак работает Whisper архитектурно для ASR (Automatic Speech Recognition)?
…Более устойчив к шуму, чем wav2vec | | [[Вики/DeepSpeech\|DeepSpeech]] | RNN (LSTM) + CTC | Supervised | Ограничен | Устаревшая, но простая | Whisper выигрывает в…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить архитектуры на reasoning задачах (Mamba vs Transformer vs RWKV vs Hyena)
…attention | | 102 | State Space Models: S4, Mamba | | 203 | RWKV: RNN + Transformer hybrid | | 301 | Comparison of language model architectures | | 405 | Reasoning…
- answerКак работает attention между слоями (cross-layer attention) в современных архитектурах?
…attention | | Linear attention | Приближение softmax | Нет (внутри слоя) | | Recurrence (RNN) | Скрытое состояние передаётся между шагами | Нет (временные шаги, не слои…
- answerКак вы проектируете систему для real-time video understanding (поток с камер)?
…MemoryBank) | Perceiver IO, GIST | | Recurrent memory | Использовать скрытое состояние RNN или Transformer-XL | Transformer-XL, Retention | | External memory | Векторная БД…
- indexИндекс разборов
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention\|714. RWKV (RNN with Transformer attention): как комбинирует RNN и…
- indexОглавление
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention\|714. RWKV (RNN with Transformer attention): как комбинирует RNN и…
- question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…RWKV (RNN with Transformer attention): как комбинирует RNN и attention?** > _Ответ:_ RWKV — RNN декодер с attention-подобными весами. Механизм: > > - WKV…
- wikiИндекс терминов
…RMSE|RMSE]] - [[Вики/RMSNorm|RMSNorm]] - [[Вики/RMSProp|RMSProp]] - [[Вики/RNN|RNN]] - [[Вики/RoBERTa|RoBERTa]] - [[Вики/robust aggregation|robust aggregation]] - [[Вики…