Поиск

wikiPYTORCH_CUDA_ALLOC_CONF
# PYTORCH_CUDA_ALLOC_CONF ## Определение Переменная окружения для настройки аллокатора CUDA в PyTorch. Позволяет управлять стратегией выделения памяти, фрагментацией и…
wikiPyTorch Lightning
# PyTorch Lightning ## Определение Высокоуровневая обёртка над PyTorch, автоматизирующая цикл обучения, тестирования и развёртывания моделей. Упрощает организацию кода и многократные запуски…
wikiPyTorch Geometric
# PyTorch Geometric ## Определение Библиотека для построения и обучения графовых нейронных сетей на базе PyTorch. Используется в задачах, связанных с графовыми…
wikiPyTorch Profiler
# PyTorch Profiler ## Определение Инструмент для профилирования PyTorch, позволяющий измерять время выполнения операций, количество FLOPs и загрузку GPU. Используется для анализа…
wikieager PyTorch
# eager PyTorch ## Определение Режим выполнения PyTorch по умолчанию, при котором каждая операция выполняется немедленно, обеспечивая гибкость, но с накладными расходами…
wikiFullyShardedDataParallel
# FullyShardedDataParallel ## Определение Класс PyTorch для распределённого обучения, который шардирует параметры, градиенты и состояния оптимизатора между устройствами, снижая потребление памяти. ## Где…
wikitorch.distributed.optim
# torch.distributed.optim ## Определение Модуль PyTorch, содержащий реализации распределённых оптимизаторов, таких как ZeroRedundancyOptimizer. Позволяет распределять состояние оптимизатора между устройствами для…
wikitorch.compile
# torch.compile ## Определение Графовый компилятор PyTorch, преобразующий eager-режим в оптимизированные вычислительные графы для ускорения инференса и обучения; поддерживает dynamic…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать memory fragmentation на GPU
…Цель задачи Научиться программно измерять фрагментацию памяти CUDA в PyTorch с помощью `torch.cuda.memory_stats()`. Выявить источники фрагментации в…
wikiDataLoader
# DataLoader ## Определение Компонент PyTorch для батчевой загрузки данных с параллельной обработкой, перемешиванием и кастомной коллацией. ## Где встречается - [[476. Как работает…
wikiShardingStrategy
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] ## Навигация…
answerКак вы управляете memory fragmentation при длительном раннинге LLM сервера?
…Настройка PYTORCH_CUDA_ALLOC_CONF [[Вики/PyTorch\|PyTorch]] предоставляет переменную окружения `[[Вики/PYTORCH_CUDA_ALLOC_CONF\|PYTORCH_CUDA_ALLOC_CONF…
wikiauto_wrap_policy
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] ## Навигация…
answerЧто такое torch.compile и как он ускоряет training?
…Проблема eager execution в PyTorch По умолчанию [[Вики/PyTorch\|PyTorch]] работает в [[Вики/eager PyTorch\|eager mode]]: каждая операция (например…
wikiAllGather
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[478…
wikiCUDA caching allocator
# CUDA caching allocator ## Определение Аллокатор памяти, используемый PyTorch для управления выделением и освобождением памяти на GPU. Он кэширует ранее выделенные…
answerЧто такое TVM (Apache TVM) и зачем он нужен для AI инференса?
…Он принимает на вход [[Вики/model\|модель]] из популярных фреймворков ([[Вики/PyTorch\|PyTorch]], [[Вики/TensorFlow\|TensorFlow]], [[Вики/ONNX Runtime\|ONNX…
wikiZeRO
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[478…
wikiRedis pipeline
…Как работает distributed optimizer в PyTorch (torch.distributed.optim)|478. Как работает distributed optimizer в PyTorch (torch.distributed.optim)]] - [[800…
wikiCPU offload
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[244…
answerКак дебажить memory fragmentation в LLM сервере?
…Она возникает, когда менеджер памяти PyTorch разбивает зарезервированные блоки на фрагменты, и со временем даже при достаточном объёме свободной памяти…
wikiFSDP
# FSDP ## Определение Техника распределённого обучения в PyTorch, которая шардирует веса, градиенты и состояния оптимизатора между GPU, уменьшая потребление памяти и…
answerКак работает FSDP (Fully Sharded Data Parallel) в PyTorch?
…параметры, градиенты, состояния оптимизатора. [[Вики/FullyShardedDataParallel\|FSDP]] — нативная реализация [[Вики/ZeRO\|ZeRO-3]] в [[Вики/PyTorch\|PyTorch]]. - **[[Вики/sharding\|Шардирование…
wikiprofiler
# profiler ## Определение Инструмент для анализа производительности, выявляющий узкие места, такие как memory stall ratio, и сравнивающий время выполнения различных подходов…
wikiDistributed Data Parallel
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[472…
wikiDeepSpeed
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[473…
answerКак вы управляете memory fragmentation при длительном раннинге LLM сервера?
…Настроить аллокатор PyTorch через `PYTORCH_CUDA_ALLOC_CONF`: - `max_split_size_mb:64` (или 128 в зависимости от среднего размера…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать selective scan (Mamba)
…Научиться запускать кастомный [[Вики/CUDA kernel\|CUDA kernel]] через [[Вики/PyTorch\|PyTorch]], верифицировать [[Вики/Faithfulness\|корректность]] на синтетических данных и…
wikiReduceScatter
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] ## Навигация…
answerКак работает FP8 quantization на H100 (Transformer Engine)?
…Интеграция с PyTorch Пример использования [[Вики/Transformer Engine\|Transformer Engine]] в [[Вики/PyTorch\|PyTorch]]: ```python import transformer_engine.pytorch as…
wikiAllReduce
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[478…
answerКак работает distributed optimizer в PyTorch (torch.distributed.optim)?
…Как работает distributed optimizer в PyTorch (torch.distributed.optim)? ## Краткий тезис [[Вики/torch.distributed.optim\|Distributed optimizer]] в [[Вики/PyTorch…
wikigradcheck
# gradcheck ## Определение Функция PyTorch для численной проверки корректности вычисления градиентов пользовательской функции. ## Где встречается - [[53. Реализовать selective scan (Mamba)|53…
wikiCaptum
# Captum ## Определение Библиотека на основе PyTorch для анализа saliency (значимости) в моделях машинного обучения, применяемая для интерпретации предсказаний. ## Где встречается…
wikitorchrun
# torchrun ## Определение Утилита PyTorch для запуска распределённого обучения, задающая world_size и управляющая процессами. ## Где встречается - [[425. Как работает sequence…
wikidetach
# detach ## Определение Операция в PyTorch, отсоединяющая тензор от вычислительного графа, что предотвращает распространение градиентов; используется для фиксации весов модели при…
wikinum_workers
# num_workers ## Определение Параметр параллельной загрузки данных (например, в PyTorch DataLoader), увеличение которого снижает CPU-bound при подготовке батчей. ## Где…
wikiCrypten
# Crypten ## Определение Библиотека PyTorch для безопасных многосторонних вычислений (MPC), применяемая для secure aggregation в федеративном обучении LLM. ## Где встречается - [[623…
wikitimm
# timm ## Определение Библиотека PyTorch, предоставляющая множество предобученных моделей компьютерного зрения, включая ViT, для быстрого экспериментирования и инференса. ## Где встречается - [[537…
wikitorch.bmm
# torch.bmm ## Определение Функция batch matrix multiplication в PyTorch, применяемая для эффективного выполнения пакетных матричных умножений, в том числе для…
wikiCUDA 11.8
# CUDA 11.8 ## Определение CUDA 11.8 — версия платформы CUDA, рекомендуемая для совместимости библиотек flash-attn и PyTorch. ## Где встречается…
wikirecord_shapes
# record_shapes ## Определение Опция PYTORCH_CUDA_ALLOC_CONF для записи форм тензоров при каждой аллокации, помогающая в дебаге. ## Где встречается…
wikitorch.autograd.Function
# torch.autograd.Function ## Определение Механизм PyTorch для создания пользовательских операций с поддержкой автоматического дифференцирования, используется для интеграции собственных CUDA-ядер…
wikitorchvision
# torchvision ## Определение Библиотека PyTorch для работы с изображениями, предоставляющая датасеты, трансформации и предобученные модели. ## Где встречается - [[273. Реализовать curriculum learning…
wikimamba-ssm
# mamba-ssm ## Определение Официальная библиотека на PyTorch для реализации архитектуры Mamba. ## Где встречается - [[713. Как работает Mamba (State Space Model…
wikitorch.utils.cpp_extension
# torch.utils.cpp_extension ## Определение Инструмент PyTorch для компиляции и загрузки кастомных C++ и CUDA расширений, используемый для интеграции оптимизированных…
answerКак работает XLA (Accelerated Linear Algebra) для LLM на TPU?
…Сравнение XLA с eager-режимом PyTorch | Характеристика | Eager PyTorch | XLA (на TPU) | |----------------|---------------|--------------| | Запуск операций | Каждая операция — отдельный kernel launch | Весь…
wikitorch.no_grad
# torch.no_grad ## Определение Контекстный менеджер в PyTorch, отключающий вычисление градиентов. Используется при инференсе или валидации для ускорения и уменьшения…
wikinn.Parameter
# nn.Parameter ## Определение nn.Parameter — класс PyTorch, который позволяет регистрировать тензоры как обучаемые параметры модели, автоматически добавляя их в граф…
wikiWeightedRandomSampler
# WeightedRandomSampler ## Определение Базовая реализация в PyTorch для сэмплирования данных с разными весами, используемая в curriculum learning. ## Где встречается - [[477. Что…