Поиск
- wikiPYTORCH_CUDA_ALLOC_CONF
# PYTORCH_CUDA_ALLOC_CONF ## Определение Переменная окружения для настройки аллокатора CUDA в PyTorch. Позволяет управлять стратегией выделения памяти, фрагментацией и…
- wikiPyTorch Lightning
# PyTorch Lightning ## Определение Высокоуровневая обёртка над PyTorch, автоматизирующая цикл обучения, тестирования и развёртывания моделей. Упрощает организацию кода и многократные запуски…
- wikiPyTorch Geometric
# PyTorch Geometric ## Определение Библиотека для построения и обучения графовых нейронных сетей на базе PyTorch. Используется в задачах, связанных с графовыми…
- wikiPyTorch Profiler
# PyTorch Profiler ## Определение Инструмент для профилирования PyTorch, позволяющий измерять время выполнения операций, количество FLOPs и загрузку GPU. Используется для анализа…
- wikieager PyTorch
# eager PyTorch ## Определение Режим выполнения PyTorch по умолчанию, при котором каждая операция выполняется немедленно, обеспечивая гибкость, но с накладными расходами…
- wikiFullyShardedDataParallel
# FullyShardedDataParallel ## Определение Класс PyTorch для распределённого обучения, который шардирует параметры, градиенты и состояния оптимизатора между устройствами, снижая потребление памяти. ## Где…
- wikitorch.distributed.optim
# torch.distributed.optim ## Определение Модуль PyTorch, содержащий реализации распределённых оптимизаторов, таких как ZeroRedundancyOptimizer. Позволяет распределять состояние оптимизатора между устройствами для…
- wikitorch.compile
# torch.compile ## Определение Графовый компилятор PyTorch, преобразующий eager-режим в оптимизированные вычислительные графы для ускорения инференса и обучения; поддерживает dynamic…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать memory fragmentation на GPU
…Цель задачи Научиться программно измерять фрагментацию памяти CUDA в PyTorch с помощью `torch.cuda.memory_stats()`. Выявить источники фрагментации в…
- wikiDataLoader
# DataLoader ## Определение Компонент PyTorch для батчевой загрузки данных с параллельной обработкой, перемешиванием и кастомной коллацией. ## Где встречается - [[476. Как работает…
- wikiShardingStrategy
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] ## Навигация…
- answerКак вы управляете memory fragmentation при длительном раннинге LLM сервера?
…Настройка PYTORCH_CUDA_ALLOC_CONF [[Вики/PyTorch\|PyTorch]] предоставляет переменную окружения `[[Вики/PYTORCH_CUDA_ALLOC_CONF\|PYTORCH_CUDA_ALLOC_CONF…
- wikiauto_wrap_policy
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] ## Навигация…
- answerЧто такое torch.compile и как он ускоряет training?
…Проблема eager execution в PyTorch По умолчанию [[Вики/PyTorch\|PyTorch]] работает в [[Вики/eager PyTorch\|eager mode]]: каждая операция (например…
- wikiAllGather
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[478…
- wikiCUDA caching allocator
# CUDA caching allocator ## Определение Аллокатор памяти, используемый PyTorch для управления выделением и освобождением памяти на GPU. Он кэширует ранее выделенные…
- answerЧто такое TVM (Apache TVM) и зачем он нужен для AI инференса?
…Он принимает на вход [[Вики/model\|модель]] из популярных фреймворков ([[Вики/PyTorch\|PyTorch]], [[Вики/TensorFlow\|TensorFlow]], [[Вики/ONNX Runtime\|ONNX…
- wikiZeRO
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[478…
- wikiRedis pipeline
…Как работает distributed optimizer в PyTorch (torch.distributed.optim)|478. Как работает distributed optimizer в PyTorch (torch.distributed.optim)]] - [[800…
- wikiCPU offload
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[244…
- answerКак дебажить memory fragmentation в LLM сервере?
…Она возникает, когда менеджер памяти PyTorch разбивает зарезервированные блоки на фрагменты, и со временем даже при достаточном объёме свободной памяти…
- wikiFSDP
# FSDP ## Определение Техника распределённого обучения в PyTorch, которая шардирует веса, градиенты и состояния оптимизатора между GPU, уменьшая потребление памяти и…
- answerКак работает FSDP (Fully Sharded Data Parallel) в PyTorch?
…параметры, градиенты, состояния оптимизатора. [[Вики/FullyShardedDataParallel\|FSDP]] — нативная реализация [[Вики/ZeRO\|ZeRO-3]] в [[Вики/PyTorch\|PyTorch]]. - **[[Вики/sharding\|Шардирование…
- wikiprofiler
# profiler ## Определение Инструмент для анализа производительности, выявляющий узкие места, такие как memory stall ratio, и сравнивающий время выполнения различных подходов…
- wikiDistributed Data Parallel
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[472…
- wikiDeepSpeed
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[473…
- answerКак вы управляете memory fragmentation при длительном раннинге LLM сервера?
…Настроить аллокатор PyTorch через `PYTORCH_CUDA_ALLOC_CONF`: - `max_split_size_mb:64` (или 128 в зависимости от среднего размера…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать selective scan (Mamba)
…Научиться запускать кастомный [[Вики/CUDA kernel\|CUDA kernel]] через [[Вики/PyTorch\|PyTorch]], верифицировать [[Вики/Faithfulness\|корректность]] на синтетических данных и…
- wikiReduceScatter
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] ## Навигация…
- answerКак работает FP8 quantization на H100 (Transformer Engine)?
…Интеграция с PyTorch Пример использования [[Вики/Transformer Engine\|Transformer Engine]] в [[Вики/PyTorch\|PyTorch]]: ```python import transformer_engine.pytorch as…
- wikiAllReduce
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[478…
- answerКак работает distributed optimizer в PyTorch (torch.distributed.optim)?
…Как работает distributed optimizer в PyTorch (torch.distributed.optim)? ## Краткий тезис [[Вики/torch.distributed.optim\|Distributed optimizer]] в [[Вики/PyTorch…
- wikigradcheck
# gradcheck ## Определение Функция PyTorch для численной проверки корректности вычисления градиентов пользовательской функции. ## Где встречается - [[53. Реализовать selective scan (Mamba)|53…
- wikiCaptum
# Captum ## Определение Библиотека на основе PyTorch для анализа saliency (значимости) в моделях машинного обучения, применяемая для интерпретации предсказаний. ## Где встречается…
- wikitorchrun
# torchrun ## Определение Утилита PyTorch для запуска распределённого обучения, задающая world_size и управляющая процессами. ## Где встречается - [[425. Как работает sequence…
- wikidetach
# detach ## Определение Операция в PyTorch, отсоединяющая тензор от вычислительного графа, что предотвращает распространение градиентов; используется для фиксации весов модели при…
- wikinum_workers
# num_workers ## Определение Параметр параллельной загрузки данных (например, в PyTorch DataLoader), увеличение которого снижает CPU-bound при подготовке батчей. ## Где…
- wikiCrypten
# Crypten ## Определение Библиотека PyTorch для безопасных многосторонних вычислений (MPC), применяемая для secure aggregation в федеративном обучении LLM. ## Где встречается - [[623…
- wikitimm
# timm ## Определение Библиотека PyTorch, предоставляющая множество предобученных моделей компьютерного зрения, включая ViT, для быстрого экспериментирования и инференса. ## Где встречается - [[537…
- wikitorch.bmm
# torch.bmm ## Определение Функция batch matrix multiplication в PyTorch, применяемая для эффективного выполнения пакетных матричных умножений, в том числе для…
- wikiCUDA 11.8
# CUDA 11.8 ## Определение CUDA 11.8 — версия платформы CUDA, рекомендуемая для совместимости библиотек flash-attn и PyTorch. ## Где встречается…
- wikirecord_shapes
# record_shapes ## Определение Опция PYTORCH_CUDA_ALLOC_CONF для записи форм тензоров при каждой аллокации, помогающая в дебаге. ## Где встречается…
- wikitorch.autograd.Function
# torch.autograd.Function ## Определение Механизм PyTorch для создания пользовательских операций с поддержкой автоматического дифференцирования, используется для интеграции собственных CUDA-ядер…
- wikitorchvision
# torchvision ## Определение Библиотека PyTorch для работы с изображениями, предоставляющая датасеты, трансформации и предобученные модели. ## Где встречается - [[273. Реализовать curriculum learning…
- wikimamba-ssm
# mamba-ssm ## Определение Официальная библиотека на PyTorch для реализации архитектуры Mamba. ## Где встречается - [[713. Как работает Mamba (State Space Model…
- wikitorch.utils.cpp_extension
# torch.utils.cpp_extension ## Определение Инструмент PyTorch для компиляции и загрузки кастомных C++ и CUDA расширений, используемый для интеграции оптимизированных…
- answerКак работает XLA (Accelerated Linear Algebra) для LLM на TPU?
…Сравнение XLA с eager-режимом PyTorch | Характеристика | Eager PyTorch | XLA (на TPU) | |----------------|---------------|--------------| | Запуск операций | Каждая операция — отдельный kernel launch | Весь…
- wikitorch.no_grad
# torch.no_grad ## Определение Контекстный менеджер в PyTorch, отключающий вычисление градиентов. Используется при инференсе или валидации для ускорения и уменьшения…
- wikinn.Parameter
# nn.Parameter ## Определение nn.Parameter — класс PyTorch, который позволяет регистрировать тензоры как обучаемые параметры модели, автоматически добавляя их в граф…
- wikiWeightedRandomSampler
# WeightedRandomSampler ## Определение Базовая реализация в PyTorch для сэмплирования данных с разными весами, используемая в curriculum learning. ## Где встречается - [[477. Что…