training
training
Определение
Процесс оптимизации параметров модели на обучающих данных, включающий выбор формата чисел (BF16, FP8) и использование аппаратных ускорителей.
Где встречается
- 706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3
- 800+ вопросов