Scale
Scale
Определение
Операция масштабирования, объединяемая с LayerNorm в kernel fusion.
Где встречается
- 312. Как работает FP8 quantization на H100 (Transformer Engine)
- 444. Почему 4-bit inference иногда медленнее 8-bit
- 469. Как работает Mixed Precision Training (FP16 + FP32 master веса)
- 654. Как работает LayerNorm и RMSNorm В чем разница и почему RMSNorm быстрее
- 800+ вопросов