Поиск

  • wikiCPU RAM

    # CPU RAM ## Определение Системная память CPU, более дешёвая и медленная, чем GPU память; используется для хранения выгруженных данных или KV…

  • wikiконстантная память

    # константная память ## Определение Память фиксированного объёма (не зависящего от длины последовательности), используемая для хранения скрытого состояния в рекуррентных архитектурах, например…

  • answerКак вы реализуете память агента (Memory) на разных уровнях?

    …Как вы реализуете память агента (Memory) на разных уровнях? ## Краткий тезис [[Вики/LangChain ConversationBufferMemory\|Память агента]] — это многоуровневая система, имитирующая…

  • wikiLLM с памятью

    # LLM с памятью ## Определение Архитектурный подход, в котором LLM хранит историю предыдущих кадров (sliding window) для сохранения контекста при анализе…

  • wikiрабочая память

    # рабочая память ## Определение Временное хранилище переменных в рамках сессии агента, например, промежуточные результаты вызовов инструментов. Очищается после завершения задачи. ## Где…

  • wikiEpisodic memory

    …Вместе с семантической памятью образует иерархическую память. ## Где встречается - [[894. Как работает memory compression для агентов (long-term memory)|894…

  • wikiLLM memory

    …скользящее окно, сжатая память, рекуррентная память, внешняя память (FAISS). Используются в системах, требующих долговременного контекста. ## Где встречается - [[370. Как вы…

  • answerКак работает memory compression для агентов (long-term memory)?

    …Похожа на [[Вики/мониторинг\|лог]]. - **[[Вики/семантическая память\|Семантическая память]] ([[Вики/семантическая память\|Semantic memory]])** — обобщённые знания, извлечённые из эпизодов…

  • wikiсемантическая память

    # семантическая память ## Определение Хранилище обобщённых знаний (фактов, паттернов), извлечённых из эпизодов, используемое агентами для долговременной памяти. ## Где встречается - [[54. Что…

  • wikiкраткосрочная память

    # краткосрочная память ## Определение Компонент памяти агента, хранящий последние N сообщений или переменные текущей сессии (например, в Redis с TTL). Обычно…

  • wikiдолгосрочная память

    # долгосрочная память ## Определение Хранилище фактов и уроков, сохраняемое между сессиями агента, обычно реализуемое через векторную БД для cross-session извлечения…

  • answerЧто такое agent state management (состояние агента между вызовами)?

    …Основные компоненты: [[Вики/краткосрочная память\|буфер диалога]], [[Вики/долгосрочная память\|долгосрочная память]], [[Вики/рабочая память\|рабочая память]] и [[Вики/Checkpoints…

  • wikisession memory

    # session memory ## Определение Память, сохраняющая информацию между различными сессиями взаимодействия с моделью, позволяя агентам использовать контекст предыдущих диалогов. ## Где встречается…

  • wikiMemory

    # Memory ## Определение Общее понятие для хранения информации агентом, подразделяется на buffer и vector хранилища; ключевой элемент архитектуры агентов для сохранения…

  • wikiAgent with Memory

    # Agent with Memory ## Определение Агент с долговременной памятью, критична согласованность, чтобы не противоречить себе в разных сессиях. ## Где встречается - [[176…

  • wikiCPU↔GPU transfers

    # CPU↔GPU transfers ## Определение Передачи данных между системной памятью CPU и памятью GPU, являющиеся узким местом при offload и замедляющие…

  • wikiStateGraph

    …Агент с памятью через векторную БД|228. Агент с памятью через векторную БД]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить Memory (in-memory + vector)

    …Цель задачи Научиться проектировать и реализовывать двухуровневую память для AI-агента: краткосрочную (память|working memory в оперативной памяти) и долгосрочную…

  • wikiHierarchical memory

    # Hierarchical memory ## Определение Многоуровневая система памяти агента, включающая эпизодическую (сырые события) и семантическую (обобщения) память. ## Где встречается - [[894. Как работает…

  • wikion-chip memory

    # on-chip memory ## Определение Память на кристалле GPU (shared memory, регистры), используемая для блоков attention, например в FlashAttention-3. ## Где…

  • wikiSelective memory

    # Selective memory ## Определение Метод управления долговременной памятью агента, при котором оценивается важность каждого события и сохраняются только самые значимые, сжимая…

  • wikiglobal memory

    # global memory ## Определение Медленная память GPU, доступная всем потокам; оптимизация LLM требует минимизации обращений к ней. Также может обозначать общую…

  • wikiGPU memory

    # GPU memory ## Определение Оперативная память, расположенная на графическом процессоре, используемая для хранения данных модели и промежуточных вычислений. Её объём критичен…

  • answerЧто такое activation recomputation (checkpointing) и зачем оно нужно?

    …Влияние на память и время ### Память - Без [[Вики/Checkpoints\|checkpointing]]: `M_params + M_activations * L` (где L — число слоёв). - С…

  • answerКак работает Infini-attention (Google, 2024) для бесконечного контекста?

    …Основная идея — комбинировать стандартное dot-product attention для последнего сегмента токенов с компрессированной памятью (memory|compressed memory), которая агрегирует информацию…

  • wikiqdrant-client

    …Агент с памятью через векторную БД|228. Агент с памятью через векторную БД]] - [[296. RAG с векторной БД на CPU…

  • answerКак вы управляете memory fragmentation при длительном раннинге LLM сервера?

    …Ключевые метрики - `allocated_bytes.all.current` — текущая занятая память. - `reserved_bytes.all.current` — зарезервированная (кэшированная) память. - `active_bytes.all.current…

  • answerЧто такое activation offloading и когда он нужен?

    …Профилируйте память — используйте `torch.cuda.memory_summary()` и `nvidia-smi` для понимания, что именно занимает память. 2. Начинайте с gradient…

  • wikimeta-llama/Llama-3.2-3B-Instruct

    …Агент с памятью через векторную БД|228. Агент с памятью через векторную БД]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • answerКак работает gradient checkpointing в DeepSpeed?

    память vs скорость Gradient checkpointing — это trade-off между памятью и вычислительными затратами. | Аспект | Без checkpointing | С checkpointing (num_checkpoints…

  • wikirecall@1

    …Агент с памятью через векторную БД|228. Агент с памятью через векторную БД]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiGraph

    …Агент с памятью через векторную БД|228. Агент с памятью через векторную БД]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiclaim extraction

    …Агент с памятью через векторную БД|228. Агент с памятью через векторную БД]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiL1 cache

    # L1 cache ## Определение Быстрая программируемая память внутри SM GPU, используемая для временных данных (например, блоков матриц при attention) и критически…

  • answerКак дебажить memory fragmentation в LLM сервере?

    …Memory fragmentation (фрагментация памяти) [[Вики/memory fragmentation\|Memory fragmentation]] — [[Вики/state\|состояние]], при котором свободная [[Вики/Memory\|память]] разбита на…

  • answerКак работает QLoRA (Quantized LoRA) для training?

    …Это добавляет ещё ~0.5 бита на параметр, но экономит [[Вики/Memory\|память]], занимаемую константами. --- ## 6. Paged Optimizers — управление памятью

  • answerЧто такое memory corruption в агентах и как его детектировать?

    …Кратковременная [[Вики/Memory\|память]] ([[Вики/краткосрочная память\|short-term memory]] / [[Вики/рабочая память\|рабочая память]]) — контекст текущей [[Вики/session\|сессии…

  • answerЧто такое MIG (Multi-Instance GPU) и когда он полезен для LLM?

    …имеет собственную выделенную [[Вики/Memory\|память]], [[Вики/Redis\|кэш]] L2, контроллер памяти, [[Вики/Tensor Cores\|тензорные ядра]] и [[Вики/Planner…

  • wikiparameters

    # parameters ## Определение Обучаемые веса модели; их количество определяет вычислительную сложность и требуемую память при обучении и инференсе. ## Где встречается - [[800…

  • wikiMemory & Persistence

    # Memory & Persistence ## Определение Хранение данных в памяти, файловой системе и векторных хранилищах для долговременного использования агентом. ## Где встречается - [[800+ вопросов…

  • wikigpustat

    # gpustat ## Определение Утилита командной строки для просмотра состояния GPU, отображающая загрузку, память и процессы. ## Где встречается - [[224. vLLM кластер на…

  • wikifact checking

    # fact checking ## Определение Процесс верификации фактов, добавляемых в память агента, для предотвращения распространения ложной информации. Может выполняться отдельным верификатором. ## Где…

  • wikimemory update

    # memory update ## Определение Процесс добавления нового урока в долговременную память агента для самоулучшения через рефлексию над ошибками. ## Где встречается - [[800…

  • wikiasync data movement

    # async data movement ## Определение Механизм асинхронной пересылки данных между памятью и вычислительными блоками, ускоряющий работу алгоритмов внимания. ## Где встречается - [[800…

  • wikistate summarization

    # state summarization ## Определение Метод уменьшения нагрузки на память агента путём сжатия истории взаимодействий, чтобы избежать деградации на длинных горизонтах. ## Где…

  • wikiO(n²) memory complexity

    # O(n²) memory complexity ## Определение Квадратичная сложность памяти стандартного attention, которую FlashAttention заменяет на линейную. ## Где встречается - [[800+ вопросов|800…

  • wikiverifier models

    # verifier models ## Определение Модели, используемые для оценки корректности промежуточных шагов агента или проверки фактов, добавляемых в память, чтобы предотвратить накопление…

  • wikistreaming tasks

    # streaming tasks ## Определение Задачи инференса с бесконечным потоком токенов, где память не растёт линейно, что делает их эффективными для длинных…

  • answerЧто такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (<16GB)?

    …Почему важна [[Вики/Memory\|память]] [[Вики/embedding\|Векторные представления]] ([[Вики/embedding\|эмбеддинги]]) обычно имеют размерность 128–1536 и хранятся как…

  • wikiGPU-экспортёр

    # GPU-экспортёр ## Определение Компонент для экспорта метрик GPU (загрузка, память) в систему мониторинга, например Prometheus. ## Где встречается - [[205. Настроить GPU…