Поиск

wikiHardware acceleration
# Hardware acceleration ## Определение Оптимизация модели для уменьшения latency. ## Где встречается - [[509. Как вы сравниваете две модели, если у них разная…
wikiDeepStream SDK
# DeepStream SDK ## Определение Набор инструментов NVIDIA для real-time видеоаналитики на GPU/Jetson, включающий готовые pipeline и аппаратное ускорение. ## Где…
answerКак работает FlashAttention-3 технически? Чем отличается от FA2?
…аппаратное) | | Поддержка FP8 | Нет | Да | | Параллелизм | По длине последовательности + по головам | Дополнительно — асинхронное перекрытие compute и data movement | | Ускорение (vs…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать FP8 инференс на H100
…Ключевой результат Рабочий скрипт инференса модели в [[Вики/FP8\|FP8]] с измеримым ускорением ≥2x относительно [[Вики/FP16\|FP16]] и падением…
answerКак вы проектируете систему для real-time video understanding (поток с камер)?
…Оптимизация включает [[Вики/Quantization\|квантование]], [[Вики/selective pruning\|прунинг]], [[Вики/Hardware acceleration\|аппаратное ускорение]] ([[Вики/TensorRT-LLM\|TensorRT]], DeepStream) и…
answerКак вы выбираете между online и batch инференсом для LLM?
…Модель]] | Маленькая (7B–13B) или дистиллированная | Большая (70B–405B) | | Аппаратное обеспечение | Высокопроизводительные GPU (A100, H100) с низкой задержкой | Spot instances…
answerКак вы строите real-time voice agent с latency <500ms?
…минимальная, только для сглаживания джиттера. - Квантование и аппаратное ускорение: использовать GPU/TPU для ASR и LLM, CPU для TTS. - Выбор…
answerКак вы строите real-time voice agent с latency <500ms?
…Инференс-движки - [[Вики/VLLM\|vLLM]] — поддерживает continuous batching и streaming, latency ~30 мс на A10. - [[Вики/Groq\|Groq]] — аппаратное ускорение…
answerКак вы сравниваете две модели, если у них разная latency (быстрая неточная vs медленная точная)?
…Если ни одна модель не удовлетворяет SLO, нужно либо ослабить SLO, либо оптимизировать модель (квантование, прунинг, аппаратное ускорение). Дополнительно можно…
answerКак вы деплоите LLM с requirement <100ms latency при throughput 1000 req/s? Архитектура.
…Типичное [[Вики/speedup\|ускорение]] — 2-3x. Процесс: 1. [[Вики/draft model\|Draft-модель]] генерирует K токенов (например, 5) авторегрессивно. 2…