Поиск

wikilinear complexity
# linear complexity ## Определение Свойство алгоритма иметь вычислительную сложность O(n), то есть время выполнения растет пропорционально длине входных данных, в…
wikiO(n) memory complexity
# O(n) memory complexity ## Определение Линейная сложность памяти, достигаемая FlashAttention, что критично для обучения на длинных контекстах (например, 100k токенов…
wikilinear complexity attention
# linear complexity attention ## Определение Внимание с линейной сложностью, достигаемое за счет ядерных трюков или других аппроксимаций, позволяет эффективно работать с…
wikiO(n²) complexity
# O(n²) complexity ## Определение Квадратичная вычислительная сложность стандартного attention, ограничивающая длину контекста трансформера. ## Где встречается - [[646. Как работает attention с…
answerКогда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context?
…Ключевое [[Вики/Invariant\|свойство]] сложность обработки последовательности длины `n` — **O(n)** (линейная), в отличие от **O(n²)** у трансформеров. Это…
answerКак работает Infini-attention (Google, 2024) для бесконечного контекста?
…Преимущества Infini-attention | Характеристика | Стандартный Transformer | Infini-attention | |----------------|------------------------|------------------| | Сложность | \(O(L^2)\) | \(O(L \cdot (S + M))\) — линейная | | Максимальный контекст…
answerЧто такое Test-Time Training (TTT) слои и как они работают?
…сложность O(n²) по длине последовательности; неэффективен для очень длинных контекстов. | | **SSM (State Space Models)**, например Mamba | Линейная сложность O…
answerКак работает sliding window attention в Mistral и Longformer?
…Преимущества: - [[Вики/linear complexity\|Линейная сложность]] по длине. - Возможность обрабатывать последовательности до 131k токенов без дополнительных трюков (например, без пересчёта…
answerЧто такое Delegation Engineering и чем он отличается от Harness Engineering?
…fine-tuning, больше инструментов) | Добавление новых исполнителей, динамическая маршрутизация | | Сложность | Линейная относительно числа инструментов | Квадратичная (N агентов → N² возможных взаимодействий…
answerЧто такое sliding window attention и зачем он в Mistral?
…Преимущества SWA в Mistral - [[Вики/O(n²) complexity\|Линейная сложность]] Позволяет обрабатывать последовательности в 8-16 раз длиннее, чем [[Вики…
answerКак вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?
…d_model * d_state | Не зависит от seq_len (линейная сложность) | | Hybrid (Transformer + SSM) | ~ сумма компонентов | Сложнее, но может быть…
answerRWKV (RNN with Transformer attention): как комбинирует RNN и attention?
…Преимущества RWKV - [[Вики/linear complexity\|Линейная сложность]] инференса: [[Вики/generation\|генерация]] каждого нового токена требует O(1) времени и памяти…
answerЧто такое selective attention в контексте long context обработки?
…токены]] динамически) и [[Вики/Efficiency\|эффективность]] ([[Вики/linear complexity\|линейная сложность]] по n). --- ## 7. Преимущества и ограничения selective attention Преимущества…
answerКак работает Mamba (State Space Model) и чем она лучше трансформера?
…Преимущества Mamba перед трансформером 1. [[Вики/O(n²) complexity\|Линейная сложность]] — позволяет обрабатывать сверхдлинные последовательности (1M+ токенов) без переполнения памяти…
answerКак работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)?
…Сложность падает до O(n·W) — линейная по n. - Плюсы: низкое [[Вики/memory footprint\|потребление памяти]], возможность обрабатывать произвольно длинные…
answerЧто такое SwiGLU и почему он лучше ReLU в LLM?
…Нелинейность | Простая кусочно-линейная | Богатая (гладкая + гейтинг) | | Контроль информации | Нет (просто max) | Да (гейтинг через ⊙) | | Вычислительная сложность | 2 матрицы (W₁…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать learning-to-rank с LambdaMART
…Добиться прироста **[[Вики/NDCG\|NDCG@10]] не менее чем на 20%** относительно гибридного ранжирования (линейная комбинация [[Вики/BM25\|BM25]] и…
answerКак работает attention между слоями (cross-layer attention) в современных архитектурах?
…Ограничения и компромиссы - Вычислительная сложность — если соединять все пары слоёв, сложность становится O(N^2 * L^2), где N — число…
answerПочему трансформеры до сих пор побеждают SSM на большинстве задач (2026)?
…Есть, зависит от размера state | | Сложность на длинных контекстах | O(L²) (квадратичная) | O(L) (линейная) | | Точность на задачах с деталями…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Рассчитать TCO RAG-системы на 1 год
…Возможные сложности и их решение | Сложность | Решение | |-----------|---------| | Цены на GPU быстро меняются | Использовать последние данные NVIDIA или AWS/GC Marketplace…
answerЧто такое pairwise comparison vs scalar rating? Когда что использовать?
…линейная сложность O(N). | **Bias**: центральная тенденция, эффект якоря, порядковый bias. | | Даёт абсолютную меру: можно сравнивать оценки разных ответов напрямую…
answerКак LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?
…что такое protein folding и почему это важно Protein folding — процесс, в котором линейная [[Вики/chain\|цепочка]] аминокислот (полипептид) сворачивается…
answerCrewAI vs AutoGen vs LangGraph — сравнение?
…machine / граф состояний | | Сложность обучения | Низкая | Средняя | Высокая | | Гибкость workflow | Низкая (только последоват./иерарх.) | Средняя (линейная беседа) | Высокая (ветвления, циклы…
answerКакие failure modes уникальны для multi-agent систем (vs single agent)?
…Что такое «схема» (schema) в контексте LLM и как она связана с языковым представлением\|182]] | Выбор топологии (линейная, иерархическая, полносвязная…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать latent reasoning (COCONUT)
…hidden_states = model.base_model(input_ids) for _ in range(thoughts_steps): # вместо генерации токена — линейная проекция thought = thought_proj…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать failure injection для MoE router
…1 слой [[Вики/FFN\|MLP]] с 8 экспертами (линейная + [[Вики/ReLU\|ReLU]]) и обучаемым [[Вики/Router\|router]] ([[Вики/logits\|softmax…
answerЧто такое attention sink и почему он возникает в длинных контекстах?
…в [[Вики/Sliding window chunking\|окно]]. - [[Вики/linear complexity\|Линейная сложность]] по длине контекста (O(n) вместо O(n²)). Минусы…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить correlation метрик (граф зависимостей retrieval → generation latency)
…Рассчитать корреляцию Пирсона и Спирмена - `pearsonr` (линейная зависимость) между `retrieval_latency` и `generation_latency`. - `spearmanr` (монотонная зависимость) — на случай нелинейных…
answerКак вы проектируете промпт для long context рассуждения (CoT, ToT, GoT)?
…GoT | |----------------|-----|-----|-----| | Структура | Линейная | Древовидная | Графовая | | Гибкость | Низкая | Средняя | Высокая | | Управление backtracking | Нет | Есть | Есть (через рёбра) | | Сложность промпта | Низкая | Средняя…
answerКак вы калибруете LLM-судью под человеческие оценки?
…Позволяет перекалибровать [[Вики/probabilities\|вероятности]]. ### 6.2 Линейная коррекция (для непрерывных шкал) Если [[Вики/GPT-4o\|LLM]] систематически завышает на…
answerКак устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс?
…ускорение в 2–4 раза и линейная сложность по памяти. ### 5.3 Quantization (квантизация) Снижение точности весов (FP16 → INT8/FP4…
answerКак вы делаете hybrid search (vector + keyword) в production на 10M документов?
…равны). - Константа k подбирается эмпирически. ### 6.2 Weighted sum (линейная комбинация) ``` score(doc) = α * score_vector(doc) + (1-α) * score…
answerЧто такое EAGLE-3 и чем он отличается от стандартного speculative decoding?
…82% | | Структура кандидатов | Линейная последовательность | Дерево (tree attention) | | [[Вики/speedup\|Ускорение]] | 2–3x | 3–5x | | Сложность реализации | Низкая | Средняя (требуется…
answerКак обучается reward model для RLHF и как избегать reward hacking?
…обычно отсутствует (линейная), чтобы [[Вики/confidence score\|score]] мог быть любым вещественным числом. Отличие от классификации RM не предсказывает метку…
answerКак строить финансовую модель LLM-продукта для бизнеса?
…Ключевая сложность — недетерминированность стоимости вызовов LLM (зависит от длины токенов, поставщика, кеширования) и быстрая эволюция рынка. Модель должна включать анализ…
answerКак вы объединяете несколько LoRA адаптеров для разных задач?
…Основные методы: [[Вики/SLERP\|SLERP]] (сферическая [[Вики/linear interpolation\|линейная интерполяция]]), [[Вики/Task vector arithmetic\|Task Vector Arithmetic]] (векторная арифметика…
answerКак работает FlashAttention математически (tiling, recomputation, не материализуя S)?
…Убедитесь, что память ~`O(n*d)` (линейная), а не `O(n^2)`. Ожидаемый результат Вы увидите, что при `n=4096…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить mmap для embeddings
…Возможные сложности и их решение | Сложность | Решение | |-----------|---------| | Генерация 100 ГБ данных занимает много времени | Уменьшить размер до 20-50 ГБ…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…θ (способность модели) + β (сложность вопроса). Преимущества: > > - Оценивает способность модели как непрерывную переменную > > - Оценивает сложность вопроса независимо > > - Позволяет сравнивать модели…