FFN
FFN
Определение
Базовый компонент трансформера, состоящий из линейных слоёв и нелинейности, следующий за attention.
Где встречается
- 203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
- 279. Что такое SwiGLU и почему он используется вместо ReLU в современных LLM
- 295. Что такое logit lens и как он помогает понимать внутренние представления
- 296. Как работает извлечение знаний (knowledge editing) из LLM без переобучения
- 300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
- 311. Что такое CUDA graphs и как они ускоряют LLM инференс
- 362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
- 401. Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism
- 456. Что такое Medusa (multiple heads) для speculative decoding
- 475. Почему tokenizer влияет на стоимость training
- 480. Как работает selective activation recomputation
- 482. Как работает QLoRA (Quantized LoRA) для training
- 540. Как работает Q-Former в BLIP-2 и зачем он нужен
- 638. Как работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)
- 655. Что такое SwiGLU и почему он лучше ReLU в LLM
- 668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
- 672. Что такое residual connections и зачем они нужны в трансформере
- 673. Как работает нормализация перед attention (pre-norm) vs после (post-norm)
- 675. Как работает dropout и зачем он нужен в LLM (regularization)
- 676. Что такое residual stream и как он связан с информационным потоком в трансформере
- 677. Как работает forward pass LLM от токена до вероятности следующего токена
- 730. Что такое LLM для symbolic regression (AI Feynman) и как это работает
- 800+ вопросов
- 56. Реализовать diffusion LLM (PLANNER)
- 57. Настроить recurrent memory для long context