English translation is not available yet. Showing Russian content.
recomputation
recomputation
Определение
Техника экономии памяти, при которой промежуточные значения не хранятся, а пересчитываются заново во время backward pass; используется в FlashAttention.
Где встречается
- 207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
- 304. Что такое FlashAttention с точки зрения CUDA programming
- 447. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
- 474. Как работает FlashAttention для training (не только inference)
- 667. Как работает FlashAttention математически (tiling, recomputation, не материализуя S)
- 848. Как работает динамическое бэтчирование в TGI vs vLLM
- 800+ вопросов