Поиск

wikiCPU RAM
# CPU RAM ## Определение Системная память CPU, более дешёвая и медленная, чем GPU память; используется для хранения выгруженных данных или KV…
wikiконстантная память
# константная память ## Определение Память фиксированного объёма (не зависящего от длины последовательности), используемая для хранения скрытого состояния в рекуррентных архитектурах, например…
answerКак вы реализуете память агента (Memory) на разных уровнях?
…Как вы реализуете память агента (Memory) на разных уровнях? ## Краткий тезис [[Вики/LangChain ConversationBufferMemory\|Память агента]] — это многоуровневая система, имитирующая…
wikiLLM с памятью
# LLM с памятью ## Определение Архитектурный подход, в котором LLM хранит историю предыдущих кадров (sliding window) для сохранения контекста при анализе…
wikiрабочая память
# рабочая память ## Определение Временное хранилище переменных в рамках сессии агента, например, промежуточные результаты вызовов инструментов. Очищается после завершения задачи. ## Где…
wikiEpisodic memory
…Вместе с семантической памятью образует иерархическую память. ## Где встречается - [[894. Как работает memory compression для агентов (long-term memory)|894…
wikiLLM memory
…скользящее окно, сжатая память, рекуррентная память, внешняя память (FAISS). Используются в системах, требующих долговременного контекста. ## Где встречается - [[370. Как вы…
answerКак работает memory compression для агентов (long-term memory)?
…Похожа на [[Вики/мониторинг\|лог]]. - **[[Вики/семантическая память\|Семантическая память]] ([[Вики/семантическая память\|Semantic memory]])** — обобщённые знания, извлечённые из эпизодов…
wikiсемантическая память
# семантическая память ## Определение Хранилище обобщённых знаний (фактов, паттернов), извлечённых из эпизодов, используемое агентами для долговременной памяти. ## Где встречается - [[54. Что…
wikiкраткосрочная память
# краткосрочная память ## Определение Компонент памяти агента, хранящий последние N сообщений или переменные текущей сессии (например, в Redis с TTL). Обычно…
wikiдолгосрочная память
# долгосрочная память ## Определение Хранилище фактов и уроков, сохраняемое между сессиями агента, обычно реализуемое через векторную БД для cross-session извлечения…
answerЧто такое agent state management (состояние агента между вызовами)?
…Основные компоненты: [[Вики/краткосрочная память\|буфер диалога]], [[Вики/долгосрочная память\|долгосрочная память]], [[Вики/рабочая память\|рабочая память]] и [[Вики/Checkpoints…
wikisession memory
# session memory ## Определение Память, сохраняющая информацию между различными сессиями взаимодействия с моделью, позволяя агентам использовать контекст предыдущих диалогов. ## Где встречается…
wikiMemory
# Memory ## Определение Общее понятие для хранения информации агентом, подразделяется на buffer и vector хранилища; ключевой элемент архитектуры агентов для сохранения…
wikiAgent with Memory
# Agent with Memory ## Определение Агент с долговременной памятью, критична согласованность, чтобы не противоречить себе в разных сессиях. ## Где встречается - [[176…
wikiCPU↔GPU transfers
# CPU↔GPU transfers ## Определение Передачи данных между системной памятью CPU и памятью GPU, являющиеся узким местом при offload и замедляющие…
wikiStateGraph
…Агент с памятью через векторную БД|228. Агент с памятью через векторную БД]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить Memory (in-memory + vector)
…Цель задачи Научиться проектировать и реализовывать двухуровневую память для AI-агента: краткосрочную (память|working memory в оперативной памяти) и долгосрочную…
wikiHierarchical memory
# Hierarchical memory ## Определение Многоуровневая система памяти агента, включающая эпизодическую (сырые события) и семантическую (обобщения) память. ## Где встречается - [[894. Как работает…
wikion-chip memory
# on-chip memory ## Определение Память на кристалле GPU (shared memory, регистры), используемая для блоков attention, например в FlashAttention-3. ## Где…
wikiSelective memory
# Selective memory ## Определение Метод управления долговременной памятью агента, при котором оценивается важность каждого события и сохраняются только самые значимые, сжимая…
wikiglobal memory
# global memory ## Определение Медленная память GPU, доступная всем потокам; оптимизация LLM требует минимизации обращений к ней. Также может обозначать общую…
wikiGPU memory
# GPU memory ## Определение Оперативная память, расположенная на графическом процессоре, используемая для хранения данных модели и промежуточных вычислений. Её объём критичен…
answerЧто такое activation recomputation (checkpointing) и зачем оно нужно?
…Влияние на память и время ### Память - Без [[Вики/Checkpoints\|checkpointing]]: `M_params + M_activations * L` (где L — число слоёв). - С…
answerКак работает Infini-attention (Google, 2024) для бесконечного контекста?
…Основная идея — комбинировать стандартное dot-product attention для последнего сегмента токенов с компрессированной памятью (memory|compressed memory), которая агрегирует информацию…
wikiqdrant-client
…Агент с памятью через векторную БД|228. Агент с памятью через векторную БД]] - [[296. RAG с векторной БД на CPU…
answerКак вы управляете memory fragmentation при длительном раннинге LLM сервера?
…Ключевые метрики - `allocated_bytes.all.current` — текущая занятая память. - `reserved_bytes.all.current` — зарезервированная (кэшированная) память. - `active_bytes.all.current…
answerЧто такое activation offloading и когда он нужен?
…Профилируйте память — используйте `torch.cuda.memory_summary()` и `nvidia-smi` для понимания, что именно занимает память. 2. Начинайте с gradient…
wikimeta-llama/Llama-3.2-3B-Instruct
…Агент с памятью через векторную БД|228. Агент с памятью через векторную БД]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
answerКак работает gradient checkpointing в DeepSpeed?
…память vs скорость Gradient checkpointing — это trade-off между памятью и вычислительными затратами. | Аспект | Без checkpointing | С checkpointing (num_checkpoints…
wikirecall@1
…Агент с памятью через векторную БД|228. Агент с памятью через векторную БД]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
wikiGraph
…Агент с памятью через векторную БД|228. Агент с памятью через векторную БД]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
wikiclaim extraction
…Агент с памятью через векторную БД|228. Агент с памятью через векторную БД]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
wikiL1 cache
# L1 cache ## Определение Быстрая программируемая память внутри SM GPU, используемая для временных данных (например, блоков матриц при attention) и критически…
answerКак дебажить memory fragmentation в LLM сервере?
…Memory fragmentation (фрагментация памяти) [[Вики/memory fragmentation\|Memory fragmentation]] — [[Вики/state\|состояние]], при котором свободная [[Вики/Memory\|память]] разбита на…
answerКак работает QLoRA (Quantized LoRA) для training?
…Это добавляет ещё ~0.5 бита на параметр, но экономит [[Вики/Memory\|память]], занимаемую константами. --- ## 6. Paged Optimizers — управление памятью…
answerЧто такое memory corruption в агентах и как его детектировать?
…Кратковременная [[Вики/Memory\|память]] ([[Вики/краткосрочная память\|short-term memory]] / [[Вики/рабочая память\|рабочая память]]) — контекст текущей [[Вики/session\|сессии…
answerЧто такое MIG (Multi-Instance GPU) и когда он полезен для LLM?
…имеет собственную выделенную [[Вики/Memory\|память]], [[Вики/Redis\|кэш]] L2, контроллер памяти, [[Вики/Tensor Cores\|тензорные ядра]] и [[Вики/Planner…
wikiparameters
# parameters ## Определение Обучаемые веса модели; их количество определяет вычислительную сложность и требуемую память при обучении и инференсе. ## Где встречается - [[800…
wikiMemory & Persistence
# Memory & Persistence ## Определение Хранение данных в памяти, файловой системе и векторных хранилищах для долговременного использования агентом. ## Где встречается - [[800+ вопросов…
wikigpustat
# gpustat ## Определение Утилита командной строки для просмотра состояния GPU, отображающая загрузку, память и процессы. ## Где встречается - [[224. vLLM кластер на…
wikifact checking
# fact checking ## Определение Процесс верификации фактов, добавляемых в память агента, для предотвращения распространения ложной информации. Может выполняться отдельным верификатором. ## Где…
wikimemory update
# memory update ## Определение Процесс добавления нового урока в долговременную память агента для самоулучшения через рефлексию над ошибками. ## Где встречается - [[800…
wikiasync data movement
# async data movement ## Определение Механизм асинхронной пересылки данных между памятью и вычислительными блоками, ускоряющий работу алгоритмов внимания. ## Где встречается - [[800…
wikistate summarization
# state summarization ## Определение Метод уменьшения нагрузки на память агента путём сжатия истории взаимодействий, чтобы избежать деградации на длинных горизонтах. ## Где…
wikiO(n²) memory complexity
# O(n²) memory complexity ## Определение Квадратичная сложность памяти стандартного attention, которую FlashAttention заменяет на линейную. ## Где встречается - [[800+ вопросов|800…
wikiverifier models
# verifier models ## Определение Модели, используемые для оценки корректности промежуточных шагов агента или проверки фактов, добавляемых в память, чтобы предотвратить накопление…
wikistreaming tasks
# streaming tasks ## Определение Задачи инференса с бесконечным потоком токенов, где память не растёт линейно, что делает их эффективными для длинных…
answerЧто такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (<16GB)?
…Почему важна [[Вики/Memory\|память]] [[Вики/embedding\|Векторные представления]] ([[Вики/embedding\|эмбеддинги]]) обычно имеют размерность 128–1536 и хранятся как…
wikiGPU-экспортёр
# GPU-экспортёр ## Определение Компонент для экспорта метрик GPU (загрузка, память) в систему мониторинга, например Prometheus. ## Где встречается - [[205. Настроить GPU…