Поиск

  • wikiGoogle TPU Pods

    # Google TPU Pods ## Определение Кластеры тензорных процессоров (TPU) с высокоскоростным интерконнектом ICI, оптимизированные для массово-параллельного обучения LLM. Представляют собой…

  • answerКак работает XLA (Accelerated Linear Algebra) для LLM на TPU?

    …3. [[Вики/code generation\|Генерация кода]] для [[Вики/TPU\|TPU]] — [[Вики/HLO\|HLO]] транслируется в инструкции для TPU-ядер (TensorCores…

  • wikiTPU

    # TPU ## Определение Специализированный ASIC от Google для ускорения обучения и инференса нейросетей, использующий матричные блоки и требующий статических форм для…

  • wikirecompilation overhead

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…

  • wikiJIT-компилятор

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…

  • wikisystolic array

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…

  • wikieager PyTorch

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…

  • wikistatic shapes

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…

  • wikimemory planning

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…

  • wikilaunch overhead

    # launch overhead ## Определение Накладные расходы времени, связанные с запуском каждой операции (kernel) на GPU/TPU; снижаются за счет слияния операций…

  • wikimatrix units

    # matrix units ## Определение Специализированное аппаратное обеспечение в TPU для быстрого умножения матриц, оптимизируемое компилятором XLA. ## Где встречается - [[800+ вопросов|800…

  • wikiICI

    # ICI ## Определение Проприетарный interconnect Google TPU, аналогичный по производительности NVLink. ## Где встречается - [[314. Как работает NVLink Switch System на DGX…

  • wikiGoogle Colab

    # Google Colab ## Определение Облачная среда для выполнения Jupyter-ноутбуков с бесплатным доступом к GPU/TPU, предназначенная для экспериментов с машинным…

  • wikiCompute costs

    # Compute costs ## Определение Затраты на аренду GPU/TPU для self-hosted моделей; зависят от размера модели, пропускной способности и выбранного…

  • wikiGoogle T5X

    # Google T5X ## Определение Фреймворк для масштабного обучения и тонкой настройки моделей семейства T5 на TPU. Включает инструменты для дистрибуции, логирования…

  • wikiSelf-hosted models

    # Self-hosted models ## Определение Модели, запускаемые на собственных вычислительных ресурсах (GPU/TPU) для обеспечения контроля данных и затрат. ## Где встречается…

  • answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?

    …работает на [[Вики/CPU\|CPU]], [[Вики/GPU\|GPU]], [[Вики/TPU\|TPU]]. - Хорошая [[Вики/Интеграция\|интеграция]] с [[Вики/JAX\|JAX]]: идеально…

  • wikipadded sequences

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…

  • wikicapacity planning

    # capacity planning ## Определение Capacity planning (планирование мощностей) — процесс оценки текущей загрузки и прогнозирования будущих потребностей в вычислительных ресурсах (GPU, TPU

  • answerЧто такое MLIR и как он используется в IREE/TensorRT-LLM?

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU\|319]] | Сравнение ONNX Runtime, TensorRT и OpenVINO | | [[320. Что такое…

  • wikiXLA

    # XLA ## Определение Компилятор машинного обучения от Google, оптимизирующий графы вычислений для ускорителей (TPU, GPU). Выполняет слияние операций (fusion), постоянное свёртывание…

  • answerПочему BF16 лучше FP16 для training?

    …современные [[Вики/GPU\|GPU]] ([[Вики/A100\|NVIDIA A100]], [[Вики/H100\|H100]], AMD MI250) и [[Вики/TPU\|TPU]] имеют нативные блоки…

  • wikikernel fusion

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…

  • wikicontinuous batching

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…

  • answerКак работает NVLink Switch System на DGX H100?

    …дешевле, но задержка выше, пропускная способность ниже. - [[Вики/Google TPU Pods\|Google TPU Pods]]: собственные interconnect (ICI) с похожей производительностью…

  • answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?

    …A100\|NVIDIA A100]], [[Вики/H100\|H100]], а также [[Вики/TPU\|TPU]] (Google). На старых [[Вики/GPU\|GPU]] ([[Вики/V100\|V100…

  • answerЧто такое Cost Engineering для LLM-систем?

    …Основные драйверы затрат в LLM-системах: - [[Вики/inference\|Инференс]] – каждый вызов модели потребляет [[Вики/compute\|вычислительные ресурсы]] (GPU/TPU, [[Вики…

  • answerКак вы строите real-time voice agent с latency <500ms?

    …Ключевые решения — использование лёгких моделей (faster-whisper, маленькие LLM, Piper) и аппаратных ускорителей (GPU/TPU) для инференса. --- ## 1. Архитектура real…

  • answerTensorRT-LLM vs vLLM — сравнение для production deployment?

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU\|319]] | Оптимизация инференса LLM (CUDA graphs, continuous batching) | | [[320. Что…

  • answerЧто такое ONNX Runtime и когда он выгоден для LLM?

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU\|319]] | TensorRT-LLM: особенности и сравнение с vLLM | | [[321. Как…

  • answerЧто такое operator fusion в компиляторах и какие паттерны fusion существуют?

    …Цель — минимизировать число вызовов ядер на GPU/TPU и оптимизировать [[Вики/memory footprint\|использование памяти]]. Зачем нужно [[Вики/Fusing\|слияние…

  • answerЧто такое TVM (Apache TVM) и зачем он нужен для AI инференса?

    …компилятор | Интеграция с TensorFlow/JAX, HLO-оптимизации | Ориентирован на TPU/GPU, сложен для кастомных операций | | [[Вики/OpenVINO\|OpenVINO]] | Оптимизатор Intel…

  • answerКак вы выбираете ANN алгоритм под ваш use case (volume, dimensionality, budget)?

    …50M векторов Рекомендация [[Вики/ScaNN\|ScaNN]] (если доступен GPU/TPU) или [[Вики/DiskANN\|DiskANN]] (если только [[Вики/CPU\|CPU]] и…

  • answerЧто такое torch.compile и как он ускоряет training?

    …Ahead-of-time компиляция всего графа | Высокая производительность, поддержка TPU | Другой фреймворк (JAX), сложнее отладка | | [[Вики/TensorRT-LLM\|TensorRT]] | Оптимизация…

  • answerВ чем разница между prefill и decode stage в LLM инференсе?

    …Почему это важно: - Разные стадии имеют разные профили нагрузок на вычислительное оборудование (GPU/TPU). - Оптимизация каждой стадии критически влияет на…

  • answerЧто такое тест-тайм компьютинг (Test-Time Compute) и чем он отличается от обычного инференса?

    …TTC требует больше GPU/TPU времени, что увеличивает операционные расходы. ## Пет-проект для закрепления [[Вики/Task\|Задача]]: Реализовать минимальный TTC…

  • answerЧто такое expert parallelism для MoE моделей (Mixtral)?

    …PyTorch, torch.distributed, one GPU simulation or actual multi-GPU (можно использовать Colab с TPU/GPU, но проще эмулировать с…

  • answerКак вы оцениваете cost-effectiveness LLM-пайплайна?

    …Вики/Compute costs\|Compute costs]] — [[Вики/Lease\|аренда]] GPU/TPU для [[Вики/self-hosted\|self-hosted]] моделей (например, [[Вики/Llama…

  • answerЧто такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (<16GB)?

    …ГБ | 1000–4000 | 0.90–0.96 | Специфичен для TPU/GPU, на CPU медленнее Faiss | [[Вики/inference\|Вывод]] для <16…

  • answerКак вы проектируете disaster recovery для LLM системы при сбое региона?

    …Особенность LLM — большая зависимость от пропускной способности GPU/TPU, поэтому резервные регионы должны быть предварительно "разогреты" (pre-warmed) с развёрнутыми…

  • wikiИндекс терминов

    …Sub]] - [[Вики/Google T5X|Google T5X]] - [[Вики/Google TPU Pods|Google TPU Pods]] - [[Вики/google-api-python-client|google-api…

  • indexИндекс разборов

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU\|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…

  • indexОглавление

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU\|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…

  • question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU?** > *Ответ:* Компилирует computation graph в оптимизированный код для TPU (matrix…