Поиск
- wikidistributed training
…Какие 3 книгикурса вы рекомендуете по production LLM|80. Какие 3 книгикурса вы рекомендуете по production LLM]] - [[800+ вопросов|800…
- wikinext token prediction
…Что такое AI for materials science (GNoME, MatterGen) и как это отличается от text LLM]] - [[898. Как работает Toolformer (обучение…
- wikiSFT
…Как вы дебажите проблему LLM не следовала системному промпту|93. Как вы дебажите проблему LLM не следовала системному промпту]] - [[326…
- wikicontinuous learning
…Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)|680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг…
- wikiEdge deployment
…Как вы обеспечиваете низкую задержку (500ms) для LLM|64. Как вы обеспечиваете низкую задержку (500ms) для LLM]] - [[544. Как вы…
- wikiself-supervision
…Как работает кросс-энтропия (cross-entropy loss) для LLM обучения|656. Как работает кросс-энтропия (cross-entropy loss) для LLM…
- wikicurriculum adversarial training
# curriculum adversarial training ## Определение Метод защиты LLM от атак, при котором сложность атак постепенно увеличивается в процессе обучения. ## Где встречается…
- wikiData Filtering
# Data Filtering ## Определение Метод отсева шумных данных перед обучением модели, часто комбинируемый с curriculum learning для улучшения качества. ## Где встречается…
- wikifederated learning
…Что такое secure aggregation для федеративного обучения LLM|623. Что такое secure aggregation для федеративного обучения LLM]] - [[800+ вопросов|800…
- wikiensemble adversarial training
# ensemble adversarial training ## Определение Метод защиты LLM от градиентных атак, при котором модель обучается на атаках, сгенерированных несколькими различными моделями…
- wikisparse gradients
…LLM многие параметры получают градиенты редко (разреженные градиенты). Adam автоматически увеличивает learning rate для таких параметров, что улучшает обучение. ## Где…
- wikiSelf-paced Learning
…Что такое curriculum learning на уровне данных для LLM|477. Что такое curriculum learning на уровне данных для LLM]] ## Навигация…
- wikiPreference tuning
…Что такое Positional bias в LLM-as-Judge и как его исправить|493. Что такое Positional bias в LLM-as…
- wikionline/offline feature consistency
# online/offline feature consistency ## Определение Проблема расхождения признаков между обучением и инференсом для LLM, критическая для MLOps, когда признаки при…
- wikiaction
…n8n, Make, Zapier — как вы интегрируете их с LLM|59. n8n, Make, Zapier — как вы интегрируете их с LLM]] - [[75…
- answerКак работает Toolformer (обучение агента использованию инструментов)?
…зачем LLM инструменты? Современные [[Вики/LLM\|LLM]] отлично генерируют текст, но не умеют: - выполнять точные арифметические действия (2 + 3 * 5…
- wikiVariational Speculative Decoding
# Variational Speculative Decoding ## Определение Метод ускорения инференса LLM, который переформулирует обучение draft модели через вариационные методы для прямой оптимизации acceptance…
- wikiDeep Ensembles
…Обучение нескольких независимых моделей; усреднение предсказаний и разброс как uncertainty. ## Где встречается - [[291. Как вы измеряете uncertainty в ответах LLM…
- wikidead neurons
…входов и его градиент становится нулевым, что останавливает обучение. В LLM вместо ReLU используют SwiGLU для избежания этой проблемы. ## Где…
- wikiplanning
…Как работает Toolformer (обучение агента использованию инструментов)|898. Как работает Toolformer (обучение агента использованию инструментов)]] - [[800+ вопросов|800+ вопросов]] ## Навигация…
- answerКак работает инициализация весов в LLM (Xavier, Kaiming, почему важна)?
…Что такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)\|670]] | Fine-tuning LLM (как…
- wikiProgressive training
…Применяется для эффективного обучения LLM. ## Где встречается - [[466. Что такое curriculum learning для LLM и как его реализовать|466. Что…
- answerКак вы делаете agent с bounded rationality (ограниченные вычислительные ресурсы)?
…обучение (прогнозирование сложности задачи) **[[Вики/meta-learning\|Мета-обучение]]** — [[Вики/training\|обучение]] отдельной модели (или самого [[Вики/GPT-4o\|LLM…
- wikiLightGBM
# LightGBM ## Определение Популярная библиотека градиентного бустинга, поддерживающая обучение ранжирующих моделей (LGBMRanker) с objective='lambdarank'. Используется для классификации, регрессии и learning…
- wikiReinforcement Learning
# Reinforcement Learning ## Определение Метод обучения агентов через взаимодействие со средой с получением наград или штрафов; применяется для выравнивания LLM и…
- wikixFormers
…Обеспечивает эффективный инференс и обучение за счёт padding-free batching и других оптимизаций. ## Где встречается - [[302. Что такое warp divergence…
- answerПочему BF16 лучше FP16 для training?
…На практике оптимальным является смешанное обучение (precision precision precision training|mixed precision) с использованием BF16 для прямого и обратного проходов…
- answerКак работает Toolformer-like обучение для агентов (self-supervised tool use)?
…LLM]] (например, [[Вики/GPT-3\|GPT-3]]) научиться использовать инструменты (калькулятор, [[Вики/retrieval\|поисковик]], переводчик, календарь) через [[Вики/training\|обучение…
- wikiFew-shot examples
…Как вы дебажите проблему LLM не следовала системному промпту|93. Как вы дебажите проблему LLM не следовала системному промпту]] - [[94…
- answerКак работает model stealing attack (экстракция модели через API)?
…modeling]]) или [[Вики/LLM distillation\|distillation]] [[Вики/Loss\|loss]] (если учитель выдает несколько кандидатов). - [[Вики/training\|Обучение]] на собранном датасете…
- answerКак оптимизировать траектории агента (trajectory optimization)?
…Инициализировать политику (LLM-агент) и запустить обучение. Термин **функция награды (reward function)** — правило, которое после каждого эпизода вычисляет численную оценку…
- answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…Влияние на обучение LLM ### 5.1. Распределённое обучение Обучение больших моделей требует тензорного параллелизма (разбиение слоёв между GPU) и конвейерного…
- wikiSuccess rate
…Как вы защищаете LLM от градиентных атак (white-box jailbreak)|355. Как вы защищаете LLM от градиентных атак (white-box…
- answerЧто такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)?
…Что такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)? ## Краткий тезис [[Вики/loss landscape…
- wikilearning-to-rank
# learning-to-rank ## Определение Класс методов машинного обучения для упорядочивания документов по релевантности запросу; применяется в retrieval для LLM, например…
- answerЧто такое curriculum learning для LLM и как его реализовать?
…Зачем curriculum learning для LLM? [[Вики/training\|Обучение]] [[Вики/LLM\|LLM]] «с нуля» на длинных последовательностях (например, 8192 токена) сразу…
- answerЧто такое curriculum learning for synthetic data (обучение на легких данных сначала)?
…Curriculum Learning (обучение по учебному плану) **[[Вики/Curriculum Learning\|Curriculum Learning]]** — это парадигма машинного обучения, вдохновлённая человеческим обучением: сначала изучаются…
- answerКак вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофического забывания?
…Continuous learning]] для LLM-агента в [[Вики/production\|production]] — это не [[Вики/Online learning\|онлайн-обучение]] на каждом запросе, а…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать process reward model (PRM)
…Технологический стек | Компонент | Инструменты | Назначение | |-----------|-------------|------------| | Язык программирования | Python 3.10+ | Реализация модели и скриптов | | Глубокое обучение | PyTorch 2.x | Обучение…
- wikicost per request
…Что такое agent distillation (обучение маленького агента на траекториях большого)]] - [[775. Что такое Cost Engineering для LLM-систем|775. Что…
- wikiMemory
…Какие 3 книгикурса вы рекомендуете по production LLM|80. Какие 3 книгикурса вы рекомендуете по production LLM]] - [[141. В чем…
- answerКак измерять ROI от fine-tuning (окупается ли дообучение более дешёвым инференсом)?
…Использовать 50–200 примеров, активное обучение | Может не хватить на сложные задачи | | [[Вики/LLM distillation\|Knowledge distillation]] | Fine-tuning маленькой…
- answerКак работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?
…Обучение и loss функции [[Вики/training\|Обучение]] [[Вики/Chameleon\|Chameleon]] состоит из двух этапов: 1. [[Вики/pre-training\|Предобучение]] [[Вики…
- wikiReinforcement Learning from Human Feedback
# Reinforcement Learning from Human Feedback ## Определение Метод обучения с подкреплением на основе человеческих предпочтений, включающий обучение модели вознаграждения и оптимизацию…
- answerЧто такое **agent distillation** (обучение маленького агента на траекториях большого)?
…Что такое **agent distillation** (обучение маленького агента на траекториях большого)? ## Краткий тезис **Agent distillation** — это техника сжатия AI-агента, при…
- answerКак работает dropout и зачем он нужен в LLM? (regularization)
…Что такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)\|670]] | Как работает Layer Normalization…
- answerКак вы тестируете RAG-систему на новых документах без реальных пользователей?
…template(template) llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.7) chain = prompt | llm | parser chunk = "Глубокое обучение — это подмножество…
- answerЧто такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной?
…Как вы оцениваете cost-effectiveness LLM-пайплайна\|139]] | Reward model: архитектура и обучение | | [[140. Как вы проверяете, что новая версия…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: LoRA для function calling
…квантизация и обучение в 4-bit | | 538 | Как сгенерировать синтетический датасет с помощью LLM? | | 672 | Masking loss для обучения чат…
- answerКак работает связь между SGD и Adam? Почему Adam лучше для LLM?
…Что такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)\|670]] | Другие оптимизаторы (RMSprop, AdaGrad…