Knowledge Portal

aivaro.ru

  • Оглавление
  • Вопросы
  • Практика
  • Вики
  • Тесты
  • Поиск
✈Telegram @AetSeidhe
RUEN中文
…
Оглавление/Вики/memory reduction

memory reduction

memory reduction

Определение

Уменьшение потребления памяти за счёт параллелизма, теоретически в P раз, что оценивается при профилировании.

Где встречается

  • 425. Как работает sequence parallelism в контексте LLM

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминevaluation

Ссылки

  • Как работает sequence parallelism в контексте LLM?

Обратные ссылки (8)

  • Индекс терминов
  • Как вы выбираете между online и batch инференсом для LLM?
  • Как работает sequence parallelism в контексте LLM?
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настройка AWQ квантизации для LLM
  • Что такое 3D parallelism (data + tensor + pipeline)?
  • Что такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
  • Что такое Parameter-Efficient Fine-Tuning (PEFT) и какие методы вы знаете?
  • Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они?