Оглавление
Вопросы
Практика
Вики
Материалы сообщества
Тесты
Поиск

✈Telegram @ai_varo

…

Оглавление/Вики/FFN

FFN

FFN

Определение

Базовый компонент трансформера, состоящий из линейных слоёв и нелинейности, следующий за attention.

Где встречается

203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
279. Что такое SwiGLU и почему он используется вместо ReLU в современных LLM
295. Что такое logit lens и как он помогает понимать внутренние представления
296. Как работает извлечение знаний (knowledge editing) из LLM без переобучения
300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
311. Что такое CUDA graphs и как они ускоряют LLM инференс
362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
401. Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism
456. Что такое Medusa (multiple heads) для speculative decoding
475. Почему tokenizer влияет на стоимость training
480. Как работает selective activation recomputation
482. Как работает QLoRA (Quantized LoRA) для training
540. Как работает Q-Former в BLIP-2 и зачем он нужен
638. Как работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)
655. Что такое SwiGLU и почему он лучше ReLU в LLM
668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
672. Что такое residual connections и зачем они нужны в трансформере
673. Как работает нормализация перед attention (pre-norm) vs после (post-norm)
675. Как работает dropout и зачем он нужен в LLM (regularization)
676. Что такое residual stream и как он связан с информационным потоком в трансформере
677. Как работает forward pass LLM от токена до вероятности следующего токена
730. Что такое LLM для symbolic regression (AI Feynman) и как это работает
800+ вопросов
56. Реализовать diffusion LLM (PLANNER)
57. Настроить recurrent memory для long context

Навигация

Индекс терминов
Индекс разборов
Оглавление