Transformer

Определение

Архитектура нейронной сети, основанная на механизме внимания, лежащая в основе большинства современных LLM и моделей последовательностей.

Где встречается

80. Какие 3 книгикурса вы рекомендуете по production LLM
152. В чем разница между Chain-of-Thought (CoT) и Latent Reasoning
219. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать
283. Что такое selective attention в контексте long context обработки
296. Как работает извлечение знаний (knowledge editing) из LLM без переобучения
299. Как работает attention между слоями (cross-layer attention) в современных архитектурах
300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
434. Как работает grouped-query attention (GQA) и как trade-off speedquality
454. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать
456. Что такое Medusa (multiple heads) для speculative decoding
463. Что такое activation recomputation (checkpointing) и зачем оно нужно
466. Что такое curriculum learning для LLM и как его реализовать
485. Как вы дебажите training instability (loss spikes, divergence)
536. Как работает CLIP (Contrastive Language-Image Pre-training) внутренне
537. Что такое SigLIP и чем отличается от CLIP
551. Как работает AudioLM и MusicGen для генерации аудио
596. Как работает model stealing attack (экстракция модели через API)
628. Что такое attention sink и почему он возникает в длинных контекстах
646. Как работает attention с линейной сложностью (Linformer, Performer, Longformer)
651. Как работает attention математически Выведите формулу scaled dot-product attention.
652. Почему в формуле attention нужно делить на √d_k Что будет без масштабирования
659. Что такое Adam optimizer и как работают его параметры (β1, β2, ε, learning rate)
668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
672. Что такое residual connections и зачем они нужны в трансформере
673. Как работает нормализация перед attention (pre-norm) vs после (post-norm)
674. Что такое logit lens (интерпретация скрытых состояний)
675. Как работает dropout и зачем он нужен в LLM (regularization)
714. RWKV (RNN with Transformer attention) как комбинирует RNN и attention
716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context
718. Что такое Test-Time Training (TTT) слои и как они работают
728. Что такое AI for materials science (GNoME, MatterGen) и как это отличается от text LLM
842. Как работает prefix caching и prompt caching у провайдеров
849. Что такое expert parallelism для MoE моделей (Mixtral)
Практика
800+ вопросов
51. Развернуть Mamba-2 локально
52. Настроить RWKV для инференса
56. Реализовать diffusion LLM (PLANNER)
59. Сравнить архитектуры на reasoning задачах

Transformer

Transformer

Определение

Где встречается

Навигация

Transformer

Transformer

Определение

Где встречается

Навигация