Knowledge Portal

aivaro.ru

  • 目录
  • 问题
  • 实践
  • 百科
  • 测试
  • 搜索
✈Telegram @AetSeidhe
RUEN中文
…
目录/百科/memory savings

中文翻译暂不可用,显示俄语原文。

memory savings

memory savings

Определение

Экономия памяти в 2x, 4x или Nx раз в зависимости от стадии ZeRO (Zero Redundancy Optimizer).

Где встречается

  • 800+ вопросов

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминarchitecture

Обратные ссылки (18)

  • GGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?
  • ZeRO-1 vs ZeRO-2 vs ZeRO-3: что и когда использовать?
  • Индекс терминов
  • Как fine-tune модель для следования сложным инструкциям?
  • Как вы дедуплицируете документы перед индексацией в RAG?
  • Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)?
  • Как вы объединяете несколько LoRA адаптеров для разных задач?
  • Как работает Mixed Precision Training (FP16 + FP32 master веса)?
  • Как работает Multi-query attention (MQA) для long context?
  • Как работает distributed optimizer в PyTorch (torch.distributed.optim)?
  • Как работает grouped-query attention (GQA) и как trade-off speed/quality?
  • Как работает prefix caching и prompt caching у провайдеров?
  • Как работает selective activation recomputation?
  • Почему tokenizer влияет на стоимость training?
  • Что такое LoRA для training (инференс уже знаем)?
  • Что такое grouped-query attention (GQA) как компромисс для long context?
  • Что такое packing sequences и зачем он нужен?
  • Что такое rate limiting на разных уровнях (user, API key, IP, global) и как реализовать?