Поиск

wikiКаскад моделей
# Каскад моделей ## Определение Архитектура, в которой сначала применяется быстрая модель, и при низкой уверенности запрос передаётся более тяжёлой модели для…
wikiOpenWebText
…моделей. Применяется, например, при обучении голов Medusa в speculative decoding. ## Где встречается - [[164. Какие trade-offs между разными архитектурами speculative…
wikisparse MoE
# sparse MoE ## Определение Разреженная смесь экспертов (sparse MoE) — архитектура, где при каждом шаге активируется лишь небольшая часть экспертов, что снижает…
wikiMultiple Sequence Alignment
…для моделей предсказания структуры белков. ## Где встречается - [[727. Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия…
wikibootstrap
…Как делать pairwise ranking для сравнения моделей|871. Как делать pairwise ranking для сравнения моделей]] - [[800+ вопросов|800+ вопросов]] - [[42…
wikiтрансформер-декодер
# трансформер-декодер ## Определение Архитектура нейросети с каузальным вниманием, генерирующая токены последовательно; лежит в основе авторегрессионных моделей (GPT, Chameleon). ## Где встречается…
wikimasked language modeling
# masked language modeling ## Определение Метод предобучения NLP-моделей, при котором случайно замаскированные токены в тексте предсказываются по контексту. Используется в…
wikiрандомизация
…Как вы делаете AB тестирование двух моделей в production|76. Как вы делаете AB тестирование двух моделей в production]] - [[247…
wikiOpenVINO
…моделей машинного обучения на оборудовании Intel (CPU, GPU, NPU). Поддерживает INT8-квантизацию и оптимизирован для высокой производительности на Intel-архитектурах…
wikiTransformer
# Transformer ## Определение Архитектура нейронной сети, основанная на механизме внимания, лежащая в основе большинства современных LLM и моделей последовательностей. ## Где встречается…
wikiTTFT
…Что такое expert parallelism для MoE моделей (Mixtral)|849. Что такое expert parallelism для MoE моделей (Mixtral)]] - [[Практика|Практика]] - [[800…
wikiTensor parallelism
…Что такое expert parallelism для MoE моделей (Mixtral)|849. Что такое expert parallelism для MoE моделей (Mixtral)]] - [[Практика|Практика]] - [[800…
answerEAGLE-3 vs Medusa-2 vs Hydra: сравнение speculative decoding методов?
…Характеристики - [[Вики/Memory Overhead\|Memory overhead]] ~2x (M моделей/heads). - **Acceptance rate:** до 85% (максимальный среди трёх). - [[Вики/quality\|Quality…
wikiPipeline parallelism
…Что такое expert parallelism для MoE моделей (Mixtral)|849. Что такое expert parallelism для MoE моделей (Mixtral)]] - [[800+ вопросов|800…
wikiдатасеты
…Настроить pairwise evaluation для моделей|284. Настроить pairwise evaluation для моделей]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
answerКак работают Tensor Cores в H100/B200 и для чего они нужны?
…В [[Вики/Hopper GPU\|H100]] ([[Вики/Hopper GPU\|архитектура Hopper]], 4-е поколение) и [[Вики/B200\|B200]] ([[Вики/Blackwell architecture…
wikiA100
…и широко используемая для инференса и обучения больших языковых моделей. ## Где встречается - [[307. Как PCIe bottleneck проявляется в multi-GPU…
wikiPerplexity
# Perplexity ## Определение Метрика для языковых моделей, показывающая, насколько модель «удивлена» данными. ## Где встречается - [[25. Как вы оцениваете качество после fine…
answerКак LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?
…Scale]] Modeling)** — семейство языковых моделей белков от Meta, обученных на миллионах последовательностей. --- ## 3. AlphaFold 3: архитектура и принцип работы [[Вики…
answerКак работает speculative decoding с несколькими draft моделями?
…Практические аспекты - Выбор количества draft моделей обычно 2–4. Больше — растёт overhead и падает ускорение. - Обучение draft моделей в Medusa…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить архитектуры на reasoning задачах (Mamba vs Transformer vs RWKV vs Hyena)
…для каких типов [[Вики/Reasoning\|reasoning]]‑задач какая архитектура предпочтительнее. Ключевой результат Таблица с метриками каждой архитектуры на 4‑х…
answerКак вы строите real-time voice agent с latency <500ms?
…выбор лёгких моделей (faster-whisper, Phi-3-mini, Piper TTS), использование WebRTC для транспорта и оптимизация каждого этапа под latency…
wikitransformers
# transformers ## Определение Библиотека от Hugging Face для загрузки, обучения и инференса предобученных моделей на архитектуре Transformer, широко используемая в NLP…
answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…Сравнение характеристик | Параметр | AMD MI300X | NVIDIA H100 | |----------|------------|-------------| | Архитектура | CDNA3 (чиплеты) | Hopper (монолит) | | Память (HBM3) | 192 ГБ | 80 ГБ | | Пропускная способность…
answerЧто такое expert parallelism для MoE моделей (Mixtral)?
…Что такое expert parallelism для MoE моделей (Mixtral)? ## Краткий тезис **[[Вики/Expert\|Expert]] [[Вики/parallelism\|parallelism]]** — это техника распределённого обучения…
answerNVIDIA Grace Hopper: CPU-GPU unified memory, как это меняет LLM serving?
…Традиционная архитектура CPU-GPU: узкое место PCIe В классических серверах (x86 + [[Вики/GPU\|GPU]] через [[Вики/PCIe\|PCIe]]) [[Вики/CPU…
answerКак работает speculative decoding? Как выбрать draft модель?
…acceptance rate может быть низким, если распределения моделей сильно различаются. ### 4.2 Self-Speculative (квантованная target) В качестве draft используется…
answerПочему трансформеры до сих пор побеждают SSM на большинстве задач (2026)?
…Transformer, SSM, Attention, State **[[Вики/Transformer\|Transformer]]** — архитектура нейросети, основанная на механизме [[Вики/full attention\|self-attention]]. Позволяет модели напрямую…
answerКак вы спроектируете систему, которая может переключаться между разными LLM провайдерами без даунтайма?
…Сложнее, но масштабируемее. - [[Вики/Событийная архитектура\|Event‑driven архитектура]] – публикация запроса в очередь (Kafka) и подписка нескольких провайдеров, ответ от…
answerЧто такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
…Используется в [[Вики/VQVAE\|VQ-VAE]] и подобных архитектурах. --- ## 2. Архитектура Fuyu-8B: без vision encoder [[Вики/Fuyu-8B\|Fuyu…
answerКак вы проектируете disaster recovery для LLM системы при сбое региона?
…Multi-region архитектура: Active-Active vs Active-Passive | Признак | Active-Active | Active-Passive | |---------|---------------|----------------| | Трафик | Распределяется между регионами | Только основной регион…
answerКак работает attention между слоями (cross-layer attention) в современных архитектурах?
…Как работает attention между слоями (cross-layer attention) в современных архитектурах? ## Краткий тезис attention|Cross-layer attention — это механизм, при…
answerTensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса?
…Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса? ## Краткий тезис При инференсе больших языковых моделей (LLM…
answerКак вы строите real-time voice agent с latency <500ms?
…Ключевые решения — использование лёгких моделей (faster-whisper, маленькие LLM, Piper) и аппаратных ускорителей (GPU/TPU) для инференса. --- ## 1. Архитектура real…
answerКак работает FP8 quantization на H100 (Transformer Engine)?
…для больших моделей | | [[300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency\|300]] | Архитектура H100 | --- ## Навигация…
answerКак работает Whisper архитектурно для ASR (Automatic Speech Recognition)?
…Общая архитектура Whisper [[Вики/Whisper\|Whisper]] — это sequence-to-sequence (seq2seq) [[Вики/model\|модель]], основанная на архитектуре **[[Вики/Transformer\|Transformer…
answerКак работает NVLink Switch System на DGX H100?
…Он предназначен для обучения и инференса больших моделей. [[Вики/NVLink\|NVLink]] Switch]] [[Вики/промпт агента\|System]] — это совокупность NVLink-линков…
answerПочему MoE (Mixture of Experts) быстрее dense модели при инференсе?
…Mixture of Experts (MoE) [[Вики/Mixture of Experts\|MoE]] — это архитектура нейронной сети, где несколько экспертов (отдельных подсетей, обычно **[[Вики…
answerКакие 3 книги/курса вы рекомендуете по production LLM?
…Три рекомендованных источника покрывают три уровня: - [[Вики/Policy\|Стратегия]] и архитектура ([[Вики/MLOps\|MLOps]]). - Внутреннее устройство (чтобы понимать, как [[Вики…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть Mamba-2 локально и сравнить perplexity с Llama-3-8B на длинном контексте
…Quantization моделей (bitsandbytes) | | 78 | Инференс больших моделей с ограниченным VRAM | | 103 | Токенизаторы: GPT-NeoX vs Llama | | 201 | Архитектура Mamba-2…
answerКак работает perplexity и как ее интерпретировать? Связь с cross-entropy?
…В контексте языковых моделей она оценивает, насколько «удивлена» [[Вики/model\|модель]], встречая каждый следующий [[Вики/token\|токен]] в тексте. Чем…
answerКак работает LLM fingerprinting (идентификация модели по ответам)?
…сравнение поведения моделей, детекция плагиата (если одна [[Вики/model\|модель]] имитирует другую). --- ## 2. Почему ответы моделей различаются? Основные источники вариативности…
answerКакие trade-offs между разными архитектурами speculative decoding?
…Архитектура Feature-Aware (EAGLE) [[Вики/Feature-Aware Speculative Decoding\|EAGLE]] (Efficient AGgregation of Latent Embeddings) — более продвинутая архитектура, использующая скрытые…
answerКакие типы задач требуют Level 3 представления (scientific formalization)?
…Что такое уровни представления знаний (Level 1–3) В архитектурах [[Вики/Agentic RAG\|Agentic RAG]] и Knowledge-Enhanced [[Вики/LLM…
answerЧто такое planner-executor архитектура для агентов?
…Что такое planner-executor архитектура для агентов? ## Краткий тезис Planner-executor — это архитектура AI-агента, в которой два компонента работают…
answerПочему vLLM быстрее TGI (Hugging Face Text Generation Inference)?
…TGI поддерживает аналогичную фичу, но реализация менее эффективна. - Поддержка моделей vLLM быстрее адаптируется к новым архитектурам благодаря модульной системе, но…
answerКак работает нормализация перед attention (pre-norm) vs после (post-norm)?
…Post-norm (нормализация после) **[[Вики/post-norm\|Post-norm]]** — это оригинальная архитектура из статьи «[[Вики/Attention\|Attention]] is All You…
answerКакие инструменты и фреймворки существуют для Harness Engineering?
…В контексте [[Вики/Agentic RAG\|Agentic RAG]] (архитектура, где [[Вики/гибридный поиск\|RAG-пайплайн]] дополняется планированием, памятью и инструментами агента…
answerЧто такое MLIR и как он используется в IREE/TensorRT-LLM?
…IREE (Intermediate Representation Execution Environment) [[Вики/IREE\|IREE]] — это компилятор и среда выполнения для ML-моделей, разработанный Google. Он использует…
answerКак работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей?
…VL-моделей | | [[120. Как быть, если одно и то же изображение встречается в документах с разными подписями\|120]] | Архитектура Agentic…