Megatron-LM

Определение

Megatron-LM — фреймворк от NVIDIA для распределённого обучения больших языковых моделей, реализующий 3D parallelism (data, tensor, pipeline) и поддерживающий FP8 через Transformer Engine.

Где встречается

203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
312. Как работает FP8 quantization на H100 (Transformer Engine)
423. Как работает tensor parallelism для LLM training Чем отличается от инференса
424. Что такое pipeline parallelism и проблема pipeline bubbles
425. Как работает sequence parallelism в контексте LLM
426. Что такое 3D parallelism (data + tensor + pipeline)
462. ZeRO-1 vs ZeRO-2 vs ZeRO-3 что и когда использовать
466. Что такое curriculum learning для LLM и как его реализовать
467. Что такое packing sequences и зачем он нужен
485. Как вы дебажите training instability (loss spikes, divergence)
650. Что такое memory-efficient attention для long context на 8x H100
710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
840. Когда tensor parallelism хуже pipeline parallelism

Megatron-LM

Megatron-LM

Определение

Где встречается

Навигация