Megatron-LM
Megatron-LM
Определение
Megatron-LM — фреймворк от NVIDIA для распределённого обучения больших языковых моделей, реализующий 3D parallelism (data, tensor, pipeline) и поддерживающий FP8 через Transformer Engine.
Где встречается
- 203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
- 312. Как работает FP8 quantization на H100 (Transformer Engine)
- 423. Как работает tensor parallelism для LLM training Чем отличается от инференса
- 424. Что такое pipeline parallelism и проблема pipeline bubbles
- 425. Как работает sequence parallelism в контексте LLM
- 426. Что такое 3D parallelism (data + tensor + pipeline)
- 462. ZeRO-1 vs ZeRO-2 vs ZeRO-3 что и когда использовать
- 466. Что такое curriculum learning для LLM и как его реализовать
- 467. Что такое packing sequences и зачем он нужен
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 650. Что такое memory-efficient attention для long context на 8x H100
- 710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
- 840. Когда tensor parallelism хуже pipeline parallelism