forward pass

Определение

Прямой проход нейронной сети от входа до выхода, используемый на этапе инференса для получения предсказаний.

Где встречается

151. Что такое тест-тайм компьютинг (Test-Time Compute) и чем он отличается от обычного инференса
153. Что такое ∇-Reasoner (nabla-reasoner) и как он использует градиентный спуск на этапе теста
159. Как speculative decoding взаимодействует с KV cache
203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
212. Как работает speculative decoding с несколькими draft моделями
215. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
423. Как работает tensor parallelism для LLM training Чем отличается от инференса
431. Почему LLM inference memory-bound, а не compute-bound
441. EAGLE-3 vs Medusa-2 vs Hydra сравнение speculative decoding методов.
446. Что такое chunked prefill и зачем он нужен
456. Что такое Medusa (multiple heads) для speculative decoding
463. Что такое activation recomputation (checkpointing) и зачем оно нужно
480. Как работает selective activation recomputation
677. Как работает forward pass LLM от токена до вероятности следующего токена
707. Как работает asynchronous execution на Hopper (copy engine vs compute)
838. Как speculative decoding ускоряет inference (детально)
845. Как работают CUDA graphs и когда их использовать
869. Как избежать benchmark contamination (когда модель видела тестовые данные)
800+ вопросов
52. Настроить RWKV для инференса
53. Реализовать selective scan (Mamba)
54. Сравнить Hyena vs FlashAttention на 128k
67. Реализовать latent reasoning (∇-Reasoner)
220. Настроить wave decoding для коротких ответов

forward pass

forward pass

Определение

Где встречается

Навигация