Поиск

  • answerКак работает XLA (Accelerated Linear Algebra) для LLM на TPU?

    …Что такое XLA и зачем он нужен для LLM [[Вики/XLA\|XLA]] — это компилятор для линейной алгебры, разработанный Google. Он…

  • wikiXLA

    …Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA

  • wikirecompilation overhead

    # recompilation overhead ## Определение Затраты времени при изменении формы тензоров, требующие повторной компиляции графа XLA. ## Где встречается - [[319. Как работает XLA

  • wikiHLO

    # HLO ## Определение Высокоуровневое представление графа вычислений в компиляторе XLA, на котором проводятся оптимизации перед генерацией кода. ## Где встречается - [[325. Как…

  • wikiJIT-компилятор

    # JIT-компилятор ## Определение Компилятор, транслирующий код во время выполнения; в ML применяется, например, в XLA для компиляции графа вычислений. ## Где…

  • wikistatic shapes

    # static shapes ## Определение Фиксированные размеры тензоров, известные на этапе компиляции, необходимые для оптимальной работы XLA и torch.compile. Позволяют избежать…

  • wikimemory planning

    …Используется в XLA и torch.compile для уменьшения потребления HBM/VMEM. ## Где встречается - [[319. Как работает XLA (Accelerated Linear Algebra…

  • wikiModel Compiler

    …Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA

  • wikisystolic array

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…

  • wikiAOT compilation

    …Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA

  • wikibuild time

    …Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA

  • wikieager PyTorch

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…

  • answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?

    XLA (Accelerated Linear Algebra) [[Вики/XLA\|XLA]] — это компилятор графов, разработанный Google, используется в [[Вики/TensorFlow\|TensorFlow]] и [[Вики/JAX…

  • wikiIREE

    …Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA

  • wikiMLIR

    …Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA

  • wikidynamic shapes

    …Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA

  • wikiONNX

    …Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA

  • wikimatrix units

    # matrix units ## Определение Специализированное аппаратное обеспечение в TPU для быстрого умножения матриц, оптимизируемое компилятором XLA. ## Где встречается - [[800+ вопросов|800…

  • wikiinstance type

    # instance type ## Определение Конкретная конфигурация виртуальной машины (vCPU, GPU, RAM), например p3.2xlarge или c5.xlarge. ## Где встречается - [[143. Сравнить…

  • wikilaunch overhead

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…

  • wikikernel fusion

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…

  • wikiTPU

    …нейросетей, использующий матричные блоки и требующий статических форм для XLA-компиляции. ## Где встречается - [[324. Что такое TVM (Apache TVM) и…

  • wikipadded sequences

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…

  • wikiJIT-компиляция

    # JIT-компиляция ## Определение Компиляция модели во время выполнения, используемая в XLA, TorchScript и других фреймворках для ускорения инференса. ## Где встречается…

  • wikiTriton Inference Server

    …Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA

  • wikicomputation graph

    …для представления модели машинного обучения и её оптимизации компиляторами (XLA, TVM). ## Где встречается - [[321. Как работает graph optimization в LLM…

  • wiki8-bit quantization

    …Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить reserved vs spot vs on-demand для ML-инфраструктуры

    …p3.2xlarge ([[Вики/GPU\|GPU]]), c5.xlarge ([[Вики/Memory\|CPU]]), p4d.24xlarge ([[Вики/GPU\|GPU]]) и др. - [[Вики/probability distribution…

  • answerКак работает graph optimization в LLM компиляторах (constant folding, dead code elimination)?

    …Инструменты для graph optimization | Инструмент | Фреймворк | Особенности | |------------|-----------|-------------| | [[Вики/XLA\|XLA]] (Accelerated Linear Algebra) | TensorFlow, JAX | Компилирует подграфы в оптимизированный код…

  • answerЧто такое operator fusion в компиляторах и какие паттерны fusion существуют?

    …Паттерны operator fusion Существует несколько основных паттернов, которые компиляторы ([[Вики/Apache TVM\|TVM]], [[Вики/XLA\|XLA]], [[Вики/TensorRT-LLM\|TensorRT…

  • answerЧто такое TVM (Apache TVM) и зачем он нужен для AI инференса?

    …Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели\|325]] | Что такое XLA и как он работает? | | [[326…

  • answerЧто такое kernel fusion и как он применяется в LLM serving?

    …3 Компиляторы (TVM, TensorRT, XLA) Библиотеки вроде [[Вики/TensorRT-LLM\|TensorRT]] и [[Вики/XLA\|XLA]] автоматически обнаруживают последовательности операций и…

  • wikiTensorRT-LLM

    …Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA

  • wikithroughput

    …Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели|325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA

  • wikicontinuous batching

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU|319. Как работает XLA (Accelerated Linear Algebra) для LLM на…

  • answerTensorRT-LLM vs vLLM — сравнение для production deployment?

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU\|319]] | Оптимизация инференса LLM (CUDA graphs, continuous batching) | | [[320. Что…

  • answerЧто такое MLIR и как он используется в IREE/TensorRT-LLM?

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU\|319]] | Сравнение ONNX Runtime, TensorRT и OpenVINO | | [[320. Что такое…

  • answerКак работает RLHF (Reinforcement Learning from Human Feedback) технически?

    …Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели\|325]] | Что такое alignment и зачем он нужен? | | [[327…

  • answerЧто такое ONNX Runtime и когда он выгоден для LLM?

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU\|319]] | TensorRT-LLM: особенности и сравнение с vLLM | | [[321. Как…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Рассчитать cost per 1M tokens для разных моделей

    …рассчитай [[Вики/cost\|стоимость]] GPU-часа (например, g5.xlarge ~ $1.006/час) и [[Вики/throughput\|throughput]] в токенах/сек. Упрощённо…

  • answerКак вы деплоите LLM с TensorRT-LLM в production?

    …Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели\|325]] | Деплой с TGI | | [[326. Как работает RLHF (Reinforcement…

  • answerКак вы детектируете и фиксите attention sinks в длинных контекстах?

    …colorbar() plt.title(f'Layer {layer}, Head {head}') plt.xlabel('Key tokens') plt.ylabel('Query tokens') plt.show() ``` ### 3.2…

  • answerЧто такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)?

    …p.data = orig # рисуем plt.contourf(alphas, betas, losses, levels=50) plt.colorbar() plt.xlabel('Direction 1') plt.ylabel('Direction…

  • answerЧто такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)?

    …plot(bin_conf, bin_acc, 'o-', label='Model') plt.xlabel('Predicted probability') plt.ylabel('True fraction positive') plt.title('Reliability…

  • answerЧто такое attention sink и почему он возникает в длинных контекстах?

    …и батчу plt.plot(sink_weights.cpu().numpy()) plt.xlabel("Position") plt.ylabel("Avg attention to first 4 tokens") plt…

  • answerЧто такое torch.compile и как он ускоряет training?

    …поддержка GPU | Ограничения на dynamic shapes, время первой компиляции | | **XLA (JAX)** | Ahead-of-time компиляция всего графа | Высокая производительность, поддержка…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Рассчитать break-even point продукта

    …max(total_cost)*0.8), arrowprops=dict(arrowstyle='->')) plt.xlabel('Queries per month') plt.ylabel('USD') plt.title('Cost vs…

  • answerКак вы управляете memory fragmentation при длительном раннинге LLM сервера?

    …сбрасывает всё) | Потеря состояния, latency spike | | Кастомный аллокатор (например, XLA) | Высокая | Высокая | Сложность поддержки | --- ## 9. Практические рекомендации для собеседования - Начните…

  • answerКак работает NVLink Switch System на DGX H100?

    …Как работает XLA (Accelerated Linear Algebra) для LLM на TPU\|319]] | Роль NCCL в коллективных операциях | | [[320. Что такое ONNX…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить RWKV для инференса

    …plt.xscale('log') plt.yscale('log') plt.legend() plt.xlabel("Sequence length (tokens)") plt.ylabel("Latency (ms)") plt.grid(True…