memory planning
memory planning
Определение
Техника оптимизации размещения и переиспользования памяти для тензоров с непересекающимся временем жизни. Используется в XLA и torch.compile для уменьшения потребления HBM/VMEM.
Где встречается
- 319. Как работает XLA (Accelerated Linear Algebra) для LLM на TPU
- 321. Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)
- 473. Что такое torch.compile и как он ускоряет training