Поиск
- wikiauto-tuning
# auto-tuning ## Определение Автоматическая оптимизация параметров выполнения (например, kernel) под конкретное аппаратное обеспечение для повышения эффективности инференса. ## Где встречается - [[800…
- wikimatrix units
# matrix units ## Определение Специализированное аппаратное обеспечение в TPU для быстрого умножения матриц, оптимизируемое компилятором XLA. ## Где встречается - [[800+ вопросов|800…
- wikitarget hardware
# target hardware ## Определение Конкретное аппаратное обеспечение, под которое оптимизируется выполнение модели с помощью auto-tuning (например, в TVM). ## Где встречается…
- answerКак работает FlashAttention-3 технически? Чем отличается от FA2?
…Как работает speculative decoding Как выбрать draft модель\|440]] | Какую роль играет аппаратное обеспечение (GPU) при развёртывании LLM? | --- ## Навигация (Obsidian…
- answerКак вы выбираете между online и batch инференсом для LLM?
…Модель]] | Маленькая (7B–13B) или дистиллированная | Большая (70B–405B) | | Аппаратное обеспечение | Высокопроизводительные GPU (A100, H100) с низкой задержкой | Spot instances…
- answerКак вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)?
…7B на A100) | |---------|------|------------|----------------------------------------| | TTFT | Prefill | Длина промпта, размер модели, аппаратное обеспечение | 100–500 мс для коротких промптов, до нескольких секунд…
- answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?
…создание низкоуровневого кода ([[Вики/CUDA\|CUDA]], [[Вики/OpenCL\|OpenCL]], SPIR-V, [[Вики/LLVM\|LLVM]] IR), который эффективно использует аппаратное обеспечение…
- answerКак вы деплоите LLM с requirement <100ms latency при throughput 1000 req/s? Архитектура.
…Аппаратное обеспечение: H100 vs B200 | Параметр | NVIDIA H100 SXM | NVIDIA B200 | |----------|-----------------|-------------| | FP8 TFLOPS | 1979 | 4500 | | HBM3 память | 80 GB | 192…