Поиск

wikiGoogle TPU Pods
# Google TPU Pods ## Определение Кластеры тензорных процессоров (TPU) с высокоскоростным интерконнектом ICI, оптимизированные для массово-параллельного обучения LLM. Представляют собой…
answerКак работает XLA (Accelerated Linear Algebra) для LLM на TPU?
…3. [[Вики/code generation\|Генерация кода]] для [[Вики/TPU\|TPU]] — [[Вики/HLO\|HLO]] транслируется в инструкции для TPU-ядер (TensorCores…
wikiTPU
# TPU ## Определение Специализированный ASIC от Google для ускорения обучения и инференса нейросетей, использующий матричные блоки и требующий статических форм для…
wikirecompilation overhead
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…
wikiJIT-компилятор
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…
wikisystolic array
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…
wikieager PyTorch
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…
wikistatic shapes
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…
wikimemory planning
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…
wikilaunch overhead
# launch overhead ## Определение Накладные расходы времени, связанные с запуском каждой операции (kernel) на GPU/TPU; снижаются за счет слияния операций…
wikimatrix units
# matrix units ## Определение Специализированное аппаратное обеспечение в TPU для быстрого умножения матриц, оптимизируемое компилятором XLA. ## Где встречается - [[800+ вопросов|800…
wikiICI
# ICI ## Определение Проприетарный interconnect Google TPU, аналогичный по производительности NVLink. ## Где встречается - [[314. Как работает NVLink Switch System на DGX…
wikiGoogle Colab
# Google Colab ## Определение Облачная среда для выполнения Jupyter-ноутбуков с бесплатным доступом к GPU/TPU, предназначенная для экспериментов с машинным…
wikiCompute costs
# Compute costs ## Определение Затраты на аренду GPU/TPU для self-hosted моделей; зависят от размера модели, пропускной способности и выбранного…
wikiGoogle T5X
# Google T5X ## Определение Фреймворк для масштабного обучения и тонкой настройки моделей семейства T5 на TPU. Включает инструменты для дистрибуции, логирования…
wikiSelf-hosted models
# Self-hosted models ## Определение Модели, запускаемые на собственных вычислительных ресурсах (GPU/TPU) для обеспечения контроля данных и затрат. ## Где встречается…
answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?
…работает на [[Вики/CPU\|CPU]], [[Вики/GPU\|GPU]], [[Вики/TPU\|TPU]]. - Хорошая [[Вики/Интеграция\|интеграция]] с [[Вики/JAX\|JAX]]: идеально…
wikipadded sequences
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…
wikicapacity planning
# capacity planning ## Определение Capacity planning (планирование мощностей) — процесс оценки текущей загрузки и прогнозирования будущих потребностей в вычислительных ресурсах (GPU, TPU…
answerЧто такое MLIR и как он используется в IREE/TensorRT-LLM?
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU\|319]] | Сравнение ONNX Runtime, TensorRT и OpenVINO | | [[320. Что такое…
wikiXLA
# XLA ## Определение Компилятор машинного обучения от Google, оптимизирующий графы вычислений для ускорителей (TPU, GPU). Выполняет слияние операций (fusion), постоянное свёртывание…
answerПочему BF16 лучше FP16 для training?
…современные [[Вики/GPU\|GPU]] ([[Вики/A100\|NVIDIA A100]], [[Вики/H100\|H100]], AMD MI250) и [[Вики/TPU\|TPU]] имеют нативные блоки…
wikikernel fusion
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…
wikicontinuous batching
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…
answerКак работает NVLink Switch System на DGX H100?
…дешевле, но задержка выше, пропускная способность ниже. - [[Вики/Google TPU Pods\|Google TPU Pods]]: собственные interconnect (ICI) с похожей производительностью…
answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
…A100\|NVIDIA A100]], [[Вики/H100\|H100]], а также [[Вики/TPU\|TPU]] (Google). На старых [[Вики/GPU\|GPU]] ([[Вики/V100\|V100…
answerЧто такое Cost Engineering для LLM-систем?
…Основные драйверы затрат в LLM-системах: - [[Вики/inference\|Инференс]] – каждый вызов модели потребляет [[Вики/compute\|вычислительные ресурсы]] (GPU/TPU, [[Вики…
answerКак вы строите real-time voice agent с latency <500ms?
…Ключевые решения — использование лёгких моделей (faster-whisper, маленькие LLM, Piper) и аппаратных ускорителей (GPU/TPU) для инференса. --- ## 1. Архитектура real…
answerTensorRT-LLM vs vLLM — сравнение для production deployment?
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU\|319]] | Оптимизация инференса LLM (CUDA graphs, continuous batching) | | [[320. Что…
answerЧто такое ONNX Runtime и когда он выгоден для LLM?
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU\|319]] | TensorRT-LLM: особенности и сравнение с vLLM | | [[321. Как…
answerЧто такое operator fusion в компиляторах и какие паттерны fusion существуют?
…Цель — минимизировать число вызовов ядер на GPU/TPU и оптимизировать [[Вики/memory footprint\|использование памяти]]. Зачем нужно [[Вики/Fusing\|слияние…
answerЧто такое TVM (Apache TVM) и зачем он нужен для AI инференса?
…компилятор | Интеграция с TensorFlow/JAX, HLO-оптимизации | Ориентирован на TPU/GPU, сложен для кастомных операций | | [[Вики/OpenVINO\|OpenVINO]] | Оптимизатор Intel…
answerКак вы выбираете ANN алгоритм под ваш use case (volume, dimensionality, budget)?
…50M векторов Рекомендация [[Вики/ScaNN\|ScaNN]] (если доступен GPU/TPU) или [[Вики/DiskANN\|DiskANN]] (если только [[Вики/CPU\|CPU]] и…
answerЧто такое torch.compile и как он ускоряет training?
…Ahead-of-time компиляция всего графа | Высокая производительность, поддержка TPU | Другой фреймворк (JAX), сложнее отладка | | [[Вики/TensorRT-LLM\|TensorRT]] | Оптимизация…
answerВ чем разница между prefill и decode stage в LLM инференсе?
…Почему это важно: - Разные стадии имеют разные профили нагрузок на вычислительное оборудование (GPU/TPU). - Оптимизация каждой стадии критически влияет на…
answerЧто такое тест-тайм компьютинг (Test-Time Compute) и чем он отличается от обычного инференса?
…TTC требует больше GPU/TPU времени, что увеличивает операционные расходы. ## Пет-проект для закрепления [[Вики/Task\|Задача]]: Реализовать минимальный TTC…
answerЧто такое expert parallelism для MoE моделей (Mixtral)?
…PyTorch, torch.distributed, one GPU simulation or actual multi-GPU (можно использовать Colab с TPU/GPU, но проще эмулировать с…
answerКак вы оцениваете cost-effectiveness LLM-пайплайна?
…Вики/Compute costs\|Compute costs]] — [[Вики/Lease\|аренда]] GPU/TPU для [[Вики/self-hosted\|self-hosted]] моделей (например, [[Вики/Llama…
answerЧто такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (<16GB)?
…ГБ | 1000–4000 | 0.90–0.96 | Специфичен для TPU/GPU, на CPU медленнее Faiss | [[Вики/inference\|Вывод]] для <16…
answerКак вы проектируете disaster recovery для LLM системы при сбое региона?
…Особенность LLM — большая зависимость от пропускной способности GPU/TPU, поэтому резервные регионы должны быть предварительно "разогреты" (pre-warmed) с развёрнутыми…
wikiИндекс терминов
…Sub]] - [[Вики/Google T5X|Google T5X]] - [[Вики/Google TPU Pods|Google TPU Pods]] - [[Вики/google-api-python-client|google-api…
indexИндекс разборов
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU\|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…
indexОглавление
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU\|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU?** > *Ответ:* Компилирует computation graph в оптимизированный код для TPU (matrix…