Поиск
- wikiHardware acceleration
# Hardware acceleration ## Определение Оптимизация модели для уменьшения latency. ## Где встречается - [[509. Как вы сравниваете две модели, если у них разная…
- wikiDeepStream SDK
# DeepStream SDK ## Определение Набор инструментов NVIDIA для real-time видеоаналитики на GPU/Jetson, включающий готовые pipeline и аппаратное ускорение. ## Где…
- answerКак работает FlashAttention-3 технически? Чем отличается от FA2?
…аппаратное) | | Поддержка FP8 | Нет | Да | | Параллелизм | По длине последовательности + по головам | Дополнительно — асинхронное перекрытие compute и data movement | | Ускорение (vs…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать FP8 инференс на H100
…Ключевой результат Рабочий скрипт инференса модели в [[Вики/FP8\|FP8]] с измеримым ускорением ≥2x относительно [[Вики/FP16\|FP16]] и падением…
- answerКак вы проектируете систему для real-time video understanding (поток с камер)?
…Оптимизация включает [[Вики/Quantization\|квантование]], [[Вики/selective pruning\|прунинг]], [[Вики/Hardware acceleration\|аппаратное ускорение]] ([[Вики/TensorRT-LLM\|TensorRT]], DeepStream) и…
- answerКак вы выбираете между online и batch инференсом для LLM?
…Модель]] | Маленькая (7B–13B) или дистиллированная | Большая (70B–405B) | | Аппаратное обеспечение | Высокопроизводительные GPU (A100, H100) с низкой задержкой | Spot instances…
- answerКак вы строите real-time voice agent с latency <500ms?
…минимальная, только для сглаживания джиттера. - Квантование и аппаратное ускорение: использовать GPU/TPU для ASR и LLM, CPU для TTS. - Выбор…
- answerКак вы строите real-time voice agent с latency <500ms?
…Инференс-движки - [[Вики/VLLM\|vLLM]] — поддерживает continuous batching и streaming, latency ~30 мс на A10. - [[Вики/Groq\|Groq]] — аппаратное ускорение…
- answerКак вы сравниваете две модели, если у них разная latency (быстрая неточная vs медленная точная)?
…Если ни одна модель не удовлетворяет SLO, нужно либо ослабить SLO, либо оптимизировать модель (квантование, прунинг, аппаратное ускорение). Дополнительно можно…
- answerКак вы деплоите LLM с requirement <100ms latency при throughput 1000 req/s? Архитектура.
…Типичное [[Вики/speedup\|ускорение]] — 2-3x. Процесс: 1. [[Вики/draft model\|Draft-модель]] генерирует K токенов (например, 5) авторегрессивно. 2…