English translation is not available yet. Showing Russian content.
Transformer
Transformer
Определение
Архитектура нейронной сети, основанная на механизме внимания, лежащая в основе большинства современных LLM и моделей последовательностей.
Где встречается
- 80. Какие 3 книгикурса вы рекомендуете по production LLM
- 152. В чем разница между Chain-of-Thought (CoT) и Latent Reasoning
- 219. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать
- 283. Что такое selective attention в контексте long context обработки
- 296. Как работает извлечение знаний (knowledge editing) из LLM без переобучения
- 299. Как работает attention между слоями (cross-layer attention) в современных архитектурах
- 300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
- 362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
- 434. Как работает grouped-query attention (GQA) и как trade-off speedquality
- 454. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать
- 456. Что такое Medusa (multiple heads) для speculative decoding
- 463. Что такое activation recomputation (checkpointing) и зачем оно нужно
- 466. Что такое curriculum learning для LLM и как его реализовать
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 536. Как работает CLIP (Contrastive Language-Image Pre-training) внутренне
- 537. Что такое SigLIP и чем отличается от CLIP
- 551. Как работает AudioLM и MusicGen для генерации аудио
- 596. Как работает model stealing attack (экстракция модели через API)
- 628. Что такое attention sink и почему он возникает в длинных контекстах
- 646. Как работает attention с линейной сложностью (Linformer, Performer, Longformer)
- 651. Как работает attention математически Выведите формулу scaled dot-product attention.
- 652. Почему в формуле attention нужно делить на √d_k Что будет без масштабирования
- 659. Что такое Adam optimizer и как работают его параметры (β1, β2, ε, learning rate)
- 668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
- 672. Что такое residual connections и зачем они нужны в трансформере
- 673. Как работает нормализация перед attention (pre-norm) vs после (post-norm)
- 674. Что такое logit lens (интерпретация скрытых состояний)
- 675. Как работает dropout и зачем он нужен в LLM (regularization)
- 714. RWKV (RNN with Transformer attention) как комбинирует RNN и attention
- 716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context
- 718. Что такое Test-Time Training (TTT) слои и как они работают
- 728. Что такое AI for materials science (GNoME, MatterGen) и как это отличается от text LLM
- 842. Как работает prefix caching и prompt caching у провайдеров
- 849. Что такое expert parallelism для MoE моделей (Mixtral)
- Практика
- 800+ вопросов
- 51. Развернуть Mamba-2 локально
- 52. Настроить RWKV для инференса
- 56. Реализовать diffusion LLM (PLANNER)
- 59. Сравнить архитектуры на reasoning задачах