Поиск

wikitarget hardware
# target hardware ## Определение Конкретное аппаратное обеспечение, под которое оптимизируется выполнение модели с помощью auto-tuning (например, в TVM). ## Где встречается…
wikiHardware acceleration
# Hardware acceleration ## Определение Оптимизация модели для уменьшения latency. ## Где встречается - [[509. Как вы сравниваете две модели, если у них разная…
wikiNUMA distance
# NUMA distance ## Определение Числовая метрика в топологии NUMA, показывающая относительную задержку доступа к памяти разных узлов (выводится командой numactl --hardware…
wikiHSM
# HSM ## Определение Аппаратный модуль для безопасного хранения и управления криптографическими ключами, используемый в системах с высокими требованиями к безопасности данных…
wikiParallel scan
# Parallel scan ## Определение Hardware-aware алгоритм параллельных рекуррентных вычислений, применяемый в Mamba для эффективного использования GPU. ## Где встречается - [[716. Когда…
answerПочему LLM inference memory-bound, а не compute-bound?
…Архитектура LLM и hardware контекст ### 1.1 Основные компоненты LLM инференса - **We --- ## Навигация (Obsidian) - Предыдущий: [[430. Как вы делаете canary…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать NUMA влияние на latency
…Если доступен только односокетный процессор — запустить `[[Вики/numactl\|numactl]] --hardware` и убедиться, что есть как минимум два узла (возможно, через…
answerКак вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?
…Влияние hardware (GPU, CUDA) на efficiency GPU архитектура определяет, насколько эффективно выполняются операции: - [[Вики/Tensor Cores\|Tensor Cores]] — ускоряют матричные…
wikiGPU utilization
# GPU utilization ## Определение Метрика, показывающая степень загрузки вычислительных блоков GPU во время выполнения задач. Низкое значение (<50%) указывает на узкие…
answerКак вы проектируете систему для real-time video understanding (поток с камер)?
…Оптимизация включает [[Вики/Quantization\|квантование]], [[Вики/selective pruning\|прунинг]], [[Вики/Hardware acceleration\|аппаратное ускорение]] ([[Вики/TensorRT-LLM\|TensorRT]], DeepStream) и…
answerЧто такое Quasar и как quantized verification ускоряет инференс?
…В таких случаях лучше использовать full-precision или QAT. - Hardware без поддержки INT4: старые GPU (V100) не имеют тензорных ядер…
answerКак вы строите real-time voice agent с latency <500ms?
…несколько пользователей, используем continuous batching в vLLM. - [[Вики/Hardware acceleration\|Hardware acceleration]] GPU (T4, A10) для LLM, GPU/CPU для…
answerКак работает RMSNorm (Root Mean Square Normalization) и чем лучше LayerNorm?
…RMSNorm быстрее на 10–15% (разброс зависит от размера тензора и hardware). ## 8. Когда выбрать RMSNorm вместо LayerNorm? - Когда скорость…
answerКак спроектировать систему, где LLM должна работать с конфиденциальными данными (медицина, финансы)?
…Key\|Ключи]] управления — в [[Вики/HSM\|HSM]] ([[Вики/HSM\|Hardware Security Module]]) или [[Вики/Vault\|Vault]] (HashiCorp) **[[Вики/Encryption in…
answerNVIDIA Grace Hopper: CPU-GPU unified memory, как это меняет LLM serving?
…Как управлять памятью в AI-агентах?\|710]] | Память агентов — unified memory как hardware-level решение | | [[711. Долгосрочная память в агентах…
answerКак работают CUDA streams и как они помогают оверлапить compute и communication?
…модель выполнения [[Вики/GPU\|GPU]] имеет несколько аппаратных очередей (hardware queues) для разных типов операций: - [[Вики/DMA engine\|DMA engine…
answerЧто такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они?
…Плюсы: - [[Вики/гибкость\|Гибкость]] — можно настроить число групп под hardware и требования к качеству - Качество выше, чем у [[Вики/Multi…
answerКогда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context?
…Ключевые особенности - [[Вики/O(n²) complexity\|Линейная сложность]] по длине последовательности. - Hardware-aware реализация (использует [[Вики/Parallel scan\|параллельное сканирование…
answerКак сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)?
…Методы отличаются стратегией обработки аутлайеров, группировкой весов и поддержкой hardware. --- ## 3. GPTQ: групповая квантизация через оптимизацию по Гессиану [[Вики/GPTQ…
answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?
…вы деплоите модель в production? | | **324** | Как вы выбираете hardware для инференса? | | **326** | Как вы профилируете производительность модели? | --- ## Навигация (Obsidian…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть vLLM против TGI и сравнить throughput
…throughput, latency, TTFT – определения | | 210 | Почему vLLM быстрее при одинаковом hardware? | | 311 | Оптимизация GPU memory utilisation для inference | | 405 | Асинхронное…
answerКак вы делаете load testing для LLM endpoint? Какие метрики ключевые?
…Как работает tensor parallelism с FP8 в vLLM\|460]] | Выбор hardware для LLM инференса | --- ## Навигация (Obsidian) - Предыдущий: [[450. Что такое…
answerGGUF vs GPTQ vs AWQ — сравнение форматов квантизации для локального запуска?
…Сравнительная таблица | Критерий | GGUF | GPTQ | AWQ | |----------|------|------|-----| | [[Вики/target hardware\|Целевое железо]] | CPU, CPU+GPU | GPU (CUDA) | GPU (CUDA) | | Скорость на…
answerКак вы разворачиваете LLM в production (self-hosted)?
…NVIDIA GPU (до 4x ускорение) | Сложность компиляции, привязка к hardware, требуется NVIDIA GPU | | **DeepSpeed (DeepSpeed-MII / Inference)** | Microsoft | Zero-оптимизация…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Рассчитать cost per 1M tokens для разных моделей
…как учесть амортизацию железа?** | Можно рассчитать cost per token как `(hardware_cost / amortization_months / tokens_per_month)`. В ТЗ для…
indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING
…GPU / CUDA / Hardware (301-315) | Вопрос | Тема | Практические задачи (#) | |--------|------|------------------------| | 301 | Иерархия памяти GPU | Inf 206-216 | | 302 | Warp divergence | Inf…
wikiИндекс терминов
…mining|Hard-negative mining]] - [[Вики/Hardening|Hardening]] - [[Вики/Hardware acceleration|Hardware acceleration]] - [[Вики/HarmBench|HarmBench]] - [[Вики/harmfulness score|harmfulness score…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…разных длинах последовательностей, cost per million tokens. --- GPU / CUDA / HARDWARE LAYER (15 вопросов) *Самый большой пробел. Без этого вы не…