Поиск

wikiIn-Memory
# In-Memory ## Определение Тип хранения данных в оперативной памяти (RAM) для обеспечения максимальной скорости доступа, используется как временное хранилище (кэш…
wikimemory compression
…Как работает memory compression для агентов (long-term memory)|894. Как работает memory compression для агентов (long-term memory)]] - [[800…
wikiHierarchical memory
# Hierarchical memory ## Определение Многоуровневая система памяти агента, включающая эпизодическую (сырые события) и семантическую (обобщения) память. ## Где встречается - [[894. Как работает…
wikiSelective memory
# Selective memory ## Определение Метод управления долговременной памятью агента, при котором оценивается важность каждого события и сохраняются только самые значимые, сжимая…
wikitorch memory stats
# torch memory stats ## Определение API PyTorch (torch.cuda.memory_stats()), возвращающий детальную статистику использования GPU памяти: allocated_bytes, reserved_bytes…
wikiкраткосрочная память
…Как устроена Memory в Harness (in-memory, fs, vector stores, relay)|750. Как устроена Memory в Harness (in-memory, fs…
wikirecurrent memory
# recurrent memory ## Определение Механизм, позволяющий LLM сохранять важные факты между сессиями диалога для обработки длинного контекста без внешних RAG-систем…
wikiEpisodic memory
# Episodic memory ## Определение Компонент долговременной памяти агента, хранящий сырые события с временными метками, подобно логу. Вместе с семантической памятью образует…
wikiсемантическая память
…Как работает memory compression для агентов (long-term memory)|894. Как работает memory compression для агентов (long-term memory)]] - [[800…
wikitorch.cuda.memory_summary
# torch.cuda.memory_summary ## Определение Функция PyTorch, выводящая подробный текстовый отчёт о состоянии GPU-памяти: сегменты, свободные блоки, состояние кэша…
wikimemory consolidation
…Как работает memory compression для агентов (long-term memory)|894. Как работает memory compression для агентов (long-term memory)]] ## Навигация…
wikiunified memory
# unified memory ## Определение Технология, обеспечивающая единое виртуальное адресное пространство для CPU и GPU, упрощающая управление данными и позволяющая размещать KV…
wikimemory fragmentation
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
wikitorch.cuda.memory_snapshot
# torch.cuda.memory_snapshot ## Определение Метод PyTorch, возвращающий снимок всех текущих выделенных блоков CUDA-памяти в виде списка словарей. Позволяет…
wikion-chip memory
# on-chip memory ## Определение Память на кристалле GPU (shared memory, регистры), используемая для блоков attention, например в FlashAttention-3. ## Где…
wikimemory traffic
# memory traffic ## Определение Объём данных, передаваемых между памятью и вычислительными ядрами; его уменьшение (например, при kernel fusion или квантизации) ускоряет…
wikiPeak memory
# Peak memory ## Определение Максимальный объём памяти (RAM или VRAM), используемый процессом во время обучения или инференса; отслеживается для оптимизации ресурсов…
wikiMemory-efficient attention
…Что такое memory-efficient attention для long context на 8x H100|650. Что такое memory-efficient attention для long context…
wikiglobal memory
# global memory ## Определение Медленная память GPU, доступная всем потокам; оптимизация LLM требует минимизации обращений к ней. Также может обозначать общую…
wikigpu-memory-utilization
# gpu-memory-utilization ## Определение Параметр vLLM, определяющий долю видеопамяти GPU, используемую для инференса. Влияет на возможность включения chunked prefill и…
wikimemory stalls
# memory stalls ## Определение Периоды, когда GPU простаивает в ожидании данных из памяти; признак — высокая Memory Throughput при низкой compute, часто…
wikiMemory-optimized ANN
…Что такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (16GB)|232. Что такое Memory-optimized ANN и…
wikiMemGPT
…Как работает memory compression для агентов (long-term memory)|894. Как работает memory compression для агентов (long-term memory)]] - [[800…
wikiMemory Networks
…Настроить recurrent memory для long context|57. Настроить recurrent memory для long context]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
wikiMemory utilization
…При превышении 80% возрастает риск ошибки OOM (out-of-memory). ## Где встречается - [[825. Что такое autoscaling inference и как его…
wikiVolatile
# Volatile ## Определение Характеристика памяти, теряющей данные при перезапуске или отключении питания; типична для in-memory хранилищ. ## Где встречается - [[750. Как…
wikiMemory Overhead
# Memory Overhead ## Определение Дополнительный расход памяти, необходимый для хранения KV-кэша вспомогательной модели (draft) при speculative decoding. В Independent Draft…
wikiLRU-эвакция
…Как устроена Memory в Harness (in-memory, fs, vector stores, relay)|750. Как устроена Memory в Harness (in-memory, fs…
wikiRelay
…Как устроена Memory в Harness (in-memory, fs, vector stores, relay)|750. Как устроена Memory в Harness (in-memory, fs…
wikiMemory
…Как устроена Memory в Harness (in-memory, fs, vector stores, relay)|750. Как устроена Memory в Harness (in-memory, fs…
wikiassociative memory
# associative memory ## Определение Механизм обновления сжатой памяти в Infini-attention, основанный на Hebbian learning, накапливающий взвешенные суммы ключей и значений…
wikiGPU memory management
# GPU memory management ## Определение Совокупность техник (pinned memory, unified memory) для эффективного распределения и копирования данных в GPU. Критична для…
wikisession_id
…Как устроена Memory в Harness (in-memory, fs, vector stores, relay)|750. Как устроена Memory в Harness (in-memory, fs…
wikiLLM memory
# LLM memory ## Определение Механизмы сохранения контекста между запросами: скользящее окно, сжатая память, рекуррентная память, внешняя память (FAISS). Используются в системах…
wikiIn-memory cache
# In-memory cache ## Определение Кэш, хранящий данные в оперативной памяти для быстрого доступа; используется в прототипах или при малой нагрузке…
wikishared state
…Что такое memory-efficient attention для long context на 8x H100|650. Что такое memory-efficient attention для long context…
wikisession memory
# session memory ## Определение Память, сохраняющая информацию между различными сессиями взаимодействия с моделью, позволяя агентам использовать контекст предыдущих диалогов. ## Где встречается…
wikiConversationSummaryMemory
…Как работает memory compression для агентов (long-term memory)|894. Как работает memory compression для агентов (long-term memory)]] ## Навигация…
wikimemory blocks
# memory blocks ## Определение Единицы памяти для KV-кэша; шедулер vLLM проверяет доступные блоки перед планированием запросов. ## Где встречается - [[800+ вопросов…
wikiIn-memory grid
# In-memory grid ## Определение Распределённая структура данных в памяти, характерная для Java-экосистемы (например, Hazelcast), используемая для масштабируемого кэширования. ## Где…
wikiO(n²) memory complexity
# O(n²) memory complexity ## Определение Квадратичная сложность памяти стандартного attention, которую FlashAttention заменяет на линейную. ## Где встречается - [[800+ вопросов|800…
wikimmap
…Что такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (16GB)|232. Что такое Memory-optimized ANN и…
answerКак работает memory compression для агентов (long-term memory)?
…Как работает memory compression для агентов (long-term memory)? ## Краткий тезис Memory compression — это механизм, позволяющий LLM-агенту хранить и…
wikimemory corruption
# memory corruption ## Определение Искажение или повреждение данных в долговременной памяти агента (например, в векторной БД), приводящее к некорректным ответам. Включает…
wikimemory stall ratio
# memory stall ratio ## Определение Метрика профилировщика, показывающая долю времени, когда процессор ожидает данные из памяти; высокое значение указывает на проблему…
wikiO(n) memory complexity
# O(n) memory complexity ## Определение Линейная сложность памяти, достигаемая FlashAttention, что критично для обучения на длинных контекстах (например, 100k токенов…
wikiseed-факты
…Настроить Memory (in-memory + vector)|105. Настроить Memory (in-memory + vector)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiEncryption in memory
# Encryption in memory ## Определение Шифрование данных в оперативной памяти, часто реализуемое через TEE, для защиты от утечек во время обработки…
wikimemory bandwidth utilization
# memory bandwidth utilization ## Определение Метрика доли используемой пропускной способности памяти; ключевой показатель эффективности LLM serving, особенно decode stage. ## Где встречается…
wikiquantized
…Настроить Memory (in-memory + vector)|105. Настроить Memory (in-memory + vector)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…