Поиск

answerКак работает XLA (Accelerated Linear Algebra) для LLM на TPU?
…Что такое XLA и зачем он нужен для LLM [[Вики/XLA\|XLA]] — это компилятор для линейной алгебры, разработанный Google. Он…
wikiXLA
…Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA…
wikirecompilation overhead
# recompilation overhead ## Определение Затраты времени при изменении формы тензоров, требующие повторной компиляции графа XLA. ## Где встречается - [[319. Как работает XLA…
wikiHLO
# HLO ## Определение Высокоуровневое представление графа вычислений в компиляторе XLA, на котором проводятся оптимизации перед генерацией кода. ## Где встречается - [[325. Как…
wikiJIT-компилятор
# JIT-компилятор ## Определение Компилятор, транслирующий код во время выполнения; в ML применяется, например, в XLA для компиляции графа вычислений. ## Где…
wikistatic shapes
# static shapes ## Определение Фиксированные размеры тензоров, известные на этапе компиляции, необходимые для оптимальной работы XLA и torch.compile. Позволяют избежать…
wikimemory planning
…Используется в XLA и torch.compile для уменьшения потребления HBM/VMEM. ## Где встречается - [[319. Как работает XLA (Accelerated Linear Algebra…
wikiModel Compiler
…Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA…
wikisystolic array
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…
wikiAOT compilation
…Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA…
wikibuild time
…Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA…
wikieager PyTorch
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…
answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?
…XLA (Accelerated Linear Algebra) [[Вики/XLA\|XLA]] — это компилятор графов, разработанный Google, используется в [[Вики/TensorFlow\|TensorFlow]] и [[Вики/JAX…
wikiIREE
…Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA…
wikiMLIR
…Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA…
wikidynamic shapes
…Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA…
wikiONNX
…Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA…
wikimatrix units
# matrix units ## Определение Специализированное аппаратное обеспечение в TPU для быстрого умножения матриц, оптимизируемое компилятором XLA. ## Где встречается - [[800+ вопросов|800…
wikiinstance type
# instance type ## Определение Конкретная конфигурация виртуальной машины (vCPU, GPU, RAM), например p3.2xlarge или c5.xlarge. ## Где встречается - [[143. Сравнить…
wikilaunch overhead
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…
wikikernel fusion
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…
wikiTPU
…нейросетей, использующий матричные блоки и требующий статических форм для XLA-компиляции. ## Где встречается - [[324. Что такое TVM (Apache TVM) и…
wikipadded sequences
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…
wikiJIT-компиляция
# JIT-компиляция ## Определение Компиляция модели во время выполнения, используемая в XLA, TorchScript и других фреймворках для ускорения инференса. ## Где встречается…
wikiTriton Inference Server
…Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA…
wikicomputation graph
…для представления модели машинного обучения и её оптимизации компиляторами (XLA, TVM). ## Где встречается - [[321. Как работает graph optimization в LLM…
wiki8-bit quantization
…Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить reserved vs spot vs on-demand для ML-инфраструктуры
…p3.2xlarge ([[Вики/GPU\|GPU]]), c5.xlarge ([[Вики/Memory\|CPU]]), p4d.24xlarge ([[Вики/GPU\|GPU]]) и др. - [[Вики/probability distribution…
answerКак работает graph optimization в LLM компиляторах (constant folding, dead code elimination)?
…Инструменты для graph optimization | Инструмент | Фреймворк | Особенности | |------------|-----------|-------------| | [[Вики/XLA\|XLA]] (Accelerated Linear Algebra) | TensorFlow, JAX | Компилирует подграфы в оптимизированный код…
answerЧто такое operator fusion в компиляторах и какие паттерны fusion существуют?
…Паттерны operator fusion Существует несколько основных паттернов, которые компиляторы ([[Вики/Apache TVM\|TVM]], [[Вики/XLA\|XLA]], [[Вики/TensorRT-LLM\|TensorRT…
answerЧто такое TVM (Apache TVM) и зачем он нужен для AI инференса?
…Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели\|325]] | Что такое XLA и как он работает? | | [[326…
answerЧто такое kernel fusion и как он применяется в LLM serving?
…3 Компиляторы (TVM, TensorRT, XLA) Библиотеки вроде [[Вики/TensorRT-LLM\|TensorRT]] и [[Вики/XLA\|XLA]] автоматически обнаруживают последовательности операций и…
wikiTensorRT-LLM
…Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA…
wikithroughput
…Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA…
wikicontinuous batching
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…
answerTensorRT-LLM vs vLLM — сравнение для production deployment?
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU\|319]] | Оптимизация инференса LLM (CUDA graphs, continuous batching) | | [[320. Что…
answerЧто такое MLIR и как он используется в IREE/TensorRT-LLM?
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU\|319]] | Сравнение ONNX Runtime, TensorRT и OpenVINO | | [[320. Что такое…
answerКак работает RLHF (Reinforcement Learning from Human Feedback) технически?
…Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели\|325]] | Что такое alignment и зачем он нужен? | | [[327…
answerЧто такое ONNX Runtime и когда он выгоден для LLM?
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU\|319]] | TensorRT-LLM: особенности и сравнение с vLLM | | [[321. Как…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Рассчитать cost per 1M tokens для разных моделей
…рассчитай [[Вики/cost\|стоимость]] GPU-часа (например, g5.xlarge ~ $1.006/час) и [[Вики/throughput\|throughput]] в токенах/сек. Упрощённо…
answerКак вы деплоите LLM с TensorRT-LLM в production?
…Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели\|325]] | Деплой с TGI | | [[326. Как работает RLHF (Reinforcement…
answerКак вы детектируете и фиксите attention sinks в длинных контекстах?
…colorbar() plt.title(f'Layer {layer}, Head {head}') plt.xlabel('Key tokens') plt.ylabel('Query tokens') plt.show() ``` ### 3.2…
answerЧто такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)?
…p.data = orig # рисуем plt.contourf(alphas, betas, losses, levels=50) plt.colorbar() plt.xlabel('Direction 1') plt.ylabel('Direction…
answerЧто такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)?
…plot(bin_conf, bin_acc, 'o-', label='Model') plt.xlabel('Predicted probability') plt.ylabel('True fraction positive') plt.title('Reliability…
answerЧто такое attention sink и почему он возникает в длинных контекстах?
…и батчу plt.plot(sink_weights.cpu().numpy()) plt.xlabel("Position") plt.ylabel("Avg attention to first 4 tokens") plt…
answerЧто такое torch.compile и как он ускоряет training?
…поддержка GPU | Ограничения на dynamic shapes, время первой компиляции | | **XLA (JAX)** | Ahead-of-time компиляция всего графа | Высокая производительность, поддержка…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Рассчитать break-even point продукта
…max(total_cost)*0.8), arrowprops=dict(arrowstyle='->')) plt.xlabel('Queries per month') plt.ylabel('USD') plt.title('Cost vs…
answerКак вы управляете memory fragmentation при длительном раннинге LLM сервера?
…сбрасывает всё) | Потеря состояния, latency spike | | Кастомный аллокатор (например, XLA) | Высокая | Высокая | Сложность поддержки | --- ## 9. Практические рекомендации для собеседования - Начните…
answerКак работает NVLink Switch System на DGX H100?
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU\|319]] | Роль NCCL в коллективных операциях | | [[320. Что такое ONNX…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить RWKV для инференса
…plt.xscale('log') plt.yscale('log') plt.legend() plt.xlabel("Sequence length (tokens)") plt.ylabel("Latency (ms)") plt.grid(True…