Поиск

  • wikiIn-Memory

    # In-Memory ## Определение Тип хранения данных в оперативной памяти (RAM) для обеспечения максимальной скорости доступа, используется как временное хранилище (кэш…

  • wikimemory compression

    …Как работает memory compression для агентов (long-term memory)|894. Как работает memory compression для агентов (long-term memory)]] - [[800…

  • wikiHierarchical memory

    # Hierarchical memory ## Определение Многоуровневая система памяти агента, включающая эпизодическую (сырые события) и семантическую (обобщения) память. ## Где встречается - [[894. Как работает…

  • wikiSelective memory

    # Selective memory ## Определение Метод управления долговременной памятью агента, при котором оценивается важность каждого события и сохраняются только самые значимые, сжимая…

  • wikitorch memory stats

    # torch memory stats ## Определение API PyTorch (torch.cuda.memory_stats()), возвращающий детальную статистику использования GPU памяти: allocated_bytes, reserved_bytes…

  • wikiкраткосрочная память

    …Как устроена Memory в Harness (in-memory, fs, vector stores, relay)|750. Как устроена Memory в Harness (in-memory, fs…

  • wikirecurrent memory

    # recurrent memory ## Определение Механизм, позволяющий LLM сохранять важные факты между сессиями диалога для обработки длинного контекста без внешних RAG-систем…

  • wikiEpisodic memory

    # Episodic memory ## Определение Компонент долговременной памяти агента, хранящий сырые события с временными метками, подобно логу. Вместе с семантической памятью образует…

  • wikiсемантическая память

    …Как работает memory compression для агентов (long-term memory)|894. Как работает memory compression для агентов (long-term memory)]] - [[800…

  • wikitorch.cuda.memory_summary

    # torch.cuda.memory_summary ## Определение Функция PyTorch, выводящая подробный текстовый отчёт о состоянии GPU-памяти: сегменты, свободные блоки, состояние кэша…

  • wikimemory consolidation

    …Как работает memory compression для агентов (long-term memory)|894. Как работает memory compression для агентов (long-term memory)]] ## Навигация…

  • wikiunified memory

    # unified memory ## Определение Технология, обеспечивающая единое виртуальное адресное пространство для CPU и GPU, упрощающая управление данными и позволяющая размещать KV…

  • wikimemory fragmentation

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…

  • wikitorch.cuda.memory_snapshot

    # torch.cuda.memory_snapshot ## Определение Метод PyTorch, возвращающий снимок всех текущих выделенных блоков CUDA-памяти в виде списка словарей. Позволяет…

  • wikion-chip memory

    # on-chip memory ## Определение Память на кристалле GPU (shared memory, регистры), используемая для блоков attention, например в FlashAttention-3. ## Где…

  • wikimemory traffic

    # memory traffic ## Определение Объём данных, передаваемых между памятью и вычислительными ядрами; его уменьшение (например, при kernel fusion или квантизации) ускоряет…

  • wikiPeak memory

    # Peak memory ## Определение Максимальный объём памяти (RAM или VRAM), используемый процессом во время обучения или инференса; отслеживается для оптимизации ресурсов…

  • wikiMemory-efficient attention

    …Что такое memory-efficient attention для long context на 8x H100|650. Что такое memory-efficient attention для long context…

  • wikiglobal memory

    # global memory ## Определение Медленная память GPU, доступная всем потокам; оптимизация LLM требует минимизации обращений к ней. Также может обозначать общую…

  • wikigpu-memory-utilization

    # gpu-memory-utilization ## Определение Параметр vLLM, определяющий долю видеопамяти GPU, используемую для инференса. Влияет на возможность включения chunked prefill и…

  • wikimemory stalls

    # memory stalls ## Определение Периоды, когда GPU простаивает в ожидании данных из памяти; признак — высокая Memory Throughput при низкой compute, часто…

  • wikiMemory-optimized ANN

    …Что такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (16GB)|232. Что такое Memory-optimized ANN и…

  • wikiMemGPT

    …Как работает memory compression для агентов (long-term memory)|894. Как работает memory compression для агентов (long-term memory)]] - [[800…

  • wikiMemory Networks

    …Настроить recurrent memory для long context|57. Настроить recurrent memory для long context]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiMemory utilization

    …При превышении 80% возрастает риск ошибки OOM (out-of-memory). ## Где встречается - [[825. Что такое autoscaling inference и как его…

  • wikiVolatile

    # Volatile ## Определение Характеристика памяти, теряющей данные при перезапуске или отключении питания; типична для in-memory хранилищ. ## Где встречается - [[750. Как…

  • wikiMemory Overhead

    # Memory Overhead ## Определение Дополнительный расход памяти, необходимый для хранения KV-кэша вспомогательной модели (draft) при speculative decoding. В Independent Draft…

  • wikiLRU-эвакция

    …Как устроена Memory в Harness (in-memory, fs, vector stores, relay)|750. Как устроена Memory в Harness (in-memory, fs…

  • wikiRelay

    …Как устроена Memory в Harness (in-memory, fs, vector stores, relay)|750. Как устроена Memory в Harness (in-memory, fs…

  • wikiMemory

    …Как устроена Memory в Harness (in-memory, fs, vector stores, relay)|750. Как устроена Memory в Harness (in-memory, fs…

  • wikiassociative memory

    # associative memory ## Определение Механизм обновления сжатой памяти в Infini-attention, основанный на Hebbian learning, накапливающий взвешенные суммы ключей и значений…

  • wikiGPU memory management

    # GPU memory management ## Определение Совокупность техник (pinned memory, unified memory) для эффективного распределения и копирования данных в GPU. Критична для…

  • wikisession_id

    …Как устроена Memory в Harness (in-memory, fs, vector stores, relay)|750. Как устроена Memory в Harness (in-memory, fs…

  • wikiLLM memory

    # LLM memory ## Определение Механизмы сохранения контекста между запросами: скользящее окно, сжатая память, рекуррентная память, внешняя память (FAISS). Используются в системах…

  • wikiIn-memory cache

    # In-memory cache ## Определение Кэш, хранящий данные в оперативной памяти для быстрого доступа; используется в прототипах или при малой нагрузке…

  • wikishared state

    …Что такое memory-efficient attention для long context на 8x H100|650. Что такое memory-efficient attention для long context…

  • wikisession memory

    # session memory ## Определение Память, сохраняющая информацию между различными сессиями взаимодействия с моделью, позволяя агентам использовать контекст предыдущих диалогов. ## Где встречается…

  • wikiConversationSummaryMemory

    …Как работает memory compression для агентов (long-term memory)|894. Как работает memory compression для агентов (long-term memory)]] ## Навигация…

  • wikimemory blocks

    # memory blocks ## Определение Единицы памяти для KV-кэша; шедулер vLLM проверяет доступные блоки перед планированием запросов. ## Где встречается - [[800+ вопросов…

  • wikiIn-memory grid

    # In-memory grid ## Определение Распределённая структура данных в памяти, характерная для Java-экосистемы (например, Hazelcast), используемая для масштабируемого кэширования. ## Где…

  • wikiO(n²) memory complexity

    # O(n²) memory complexity ## Определение Квадратичная сложность памяти стандартного attention, которую FlashAttention заменяет на линейную. ## Где встречается - [[800+ вопросов|800…

  • wikimmap

    …Что такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (16GB)|232. Что такое Memory-optimized ANN и…

  • answerКак работает memory compression для агентов (long-term memory)?

    …Как работает memory compression для агентов (long-term memory)? ## Краткий тезис Memory compression — это механизм, позволяющий LLM-агенту хранить и…

  • wikimemory corruption

    # memory corruption ## Определение Искажение или повреждение данных в долговременной памяти агента (например, в векторной БД), приводящее к некорректным ответам. Включает…

  • wikimemory stall ratio

    # memory stall ratio ## Определение Метрика профилировщика, показывающая долю времени, когда процессор ожидает данные из памяти; высокое значение указывает на проблему…

  • wikiO(n) memory complexity

    # O(n) memory complexity ## Определение Линейная сложность памяти, достигаемая FlashAttention, что критично для обучения на длинных контекстах (например, 100k токенов…

  • wikiseed-факты

    …Настроить Memory (in-memory + vector)|105. Настроить Memory (in-memory + vector)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiEncryption in memory

    # Encryption in memory ## Определение Шифрование данных в оперативной памяти, часто реализуемое через TEE, для защиты от утечек во время обработки…

  • wikimemory bandwidth utilization

    # memory bandwidth utilization ## Определение Метрика доли используемой пропускной способности памяти; ключевой показатель эффективности LLM serving, особенно decode stage. ## Где встречается…

  • wikiquantized

    …Настроить Memory (in-memory + vector)|105. Настроить Memory (in-memory + vector)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…