Поиск

wikidistributed training
…Какие 3 книгикурса вы рекомендуете по production LLM|80. Какие 3 книгикурса вы рекомендуете по production LLM]] - [[800+ вопросов|800…
wikinext token prediction
…Что такое AI for materials science (GNoME, MatterGen) и как это отличается от text LLM]] - [[898. Как работает Toolformer (обучение…
wikiSFT
…Как вы дебажите проблему LLM не следовала системному промпту|93. Как вы дебажите проблему LLM не следовала системному промпту]] - [[326…
wikicontinuous learning
…Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)|680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг…
wikiEdge deployment
…Как вы обеспечиваете низкую задержку (500ms) для LLM|64. Как вы обеспечиваете низкую задержку (500ms) для LLM]] - [[544. Как вы…
wikiself-supervision
…Как работает кросс-энтропия (cross-entropy loss) для LLM обучения|656. Как работает кросс-энтропия (cross-entropy loss) для LLM…
wikicurriculum adversarial training
# curriculum adversarial training ## Определение Метод защиты LLM от атак, при котором сложность атак постепенно увеличивается в процессе обучения. ## Где встречается…
wikiData Filtering
# Data Filtering ## Определение Метод отсева шумных данных перед обучением модели, часто комбинируемый с curriculum learning для улучшения качества. ## Где встречается…
wikifederated learning
…Что такое secure aggregation для федеративного обучения LLM|623. Что такое secure aggregation для федеративного обучения LLM]] - [[800+ вопросов|800…
wikiensemble adversarial training
# ensemble adversarial training ## Определение Метод защиты LLM от градиентных атак, при котором модель обучается на атаках, сгенерированных несколькими различными моделями…
wikisparse gradients
…LLM многие параметры получают градиенты редко (разреженные градиенты). Adam автоматически увеличивает learning rate для таких параметров, что улучшает обучение. ## Где…
wikiSelf-paced Learning
…Что такое curriculum learning на уровне данных для LLM|477. Что такое curriculum learning на уровне данных для LLM]] ## Навигация…
wikiPreference tuning
…Что такое Positional bias в LLM-as-Judge и как его исправить|493. Что такое Positional bias в LLM-as…
wikionline/offline feature consistency
# online/offline feature consistency ## Определение Проблема расхождения признаков между обучением и инференсом для LLM, критическая для MLOps, когда признаки при…
wikiaction
…n8n, Make, Zapier — как вы интегрируете их с LLM|59. n8n, Make, Zapier — как вы интегрируете их с LLM]] - [[75…
answerКак работает Toolformer (обучение агента использованию инструментов)?
…зачем LLM инструменты? Современные [[Вики/LLM\|LLM]] отлично генерируют текст, но не умеют: - выполнять точные арифметические действия (2 + 3 * 5…
wikiVariational Speculative Decoding
# Variational Speculative Decoding ## Определение Метод ускорения инференса LLM, который переформулирует обучение draft модели через вариационные методы для прямой оптимизации acceptance…
wikiDeep Ensembles
…Обучение нескольких независимых моделей; усреднение предсказаний и разброс как uncertainty. ## Где встречается - [[291. Как вы измеряете uncertainty в ответах LLM…
wikidead neurons
…входов и его градиент становится нулевым, что останавливает обучение. В LLM вместо ReLU используют SwiGLU для избежания этой проблемы. ## Где…
wikiplanning
…Как работает Toolformer (обучение агента использованию инструментов)|898. Как работает Toolformer (обучение агента использованию инструментов)]] - [[800+ вопросов|800+ вопросов]] ## Навигация…
answerКак работает инициализация весов в LLM (Xavier, Kaiming, почему важна)?
…Что такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)\|670]] | Fine-tuning LLM (как…
wikiProgressive training
…Применяется для эффективного обучения LLM. ## Где встречается - [[466. Что такое curriculum learning для LLM и как его реализовать|466. Что…
answerКак вы делаете agent с bounded rationality (ограниченные вычислительные ресурсы)?
…обучение (прогнозирование сложности задачи) **[[Вики/meta-learning\|Мета-обучение]]** — [[Вики/training\|обучение]] отдельной модели (или самого [[Вики/GPT-4o\|LLM…
wikiLightGBM
# LightGBM ## Определение Популярная библиотека градиентного бустинга, поддерживающая обучение ранжирующих моделей (LGBMRanker) с objective='lambdarank'. Используется для классификации, регрессии и learning…
wikiReinforcement Learning
# Reinforcement Learning ## Определение Метод обучения агентов через взаимодействие со средой с получением наград или штрафов; применяется для выравнивания LLM и…
wikixFormers
…Обеспечивает эффективный инференс и обучение за счёт padding-free batching и других оптимизаций. ## Где встречается - [[302. Что такое warp divergence…
answerПочему BF16 лучше FP16 для training?
…На практике оптимальным является смешанное обучение (precision precision precision training|mixed precision) с использованием BF16 для прямого и обратного проходов…
answerКак работает Toolformer-like обучение для агентов (self-supervised tool use)?
…LLM]] (например, [[Вики/GPT-3\|GPT-3]]) научиться использовать инструменты (калькулятор, [[Вики/retrieval\|поисковик]], переводчик, календарь) через [[Вики/training\|обучение…
wikiFew-shot examples
…Как вы дебажите проблему LLM не следовала системному промпту|93. Как вы дебажите проблему LLM не следовала системному промпту]] - [[94…
answerКак работает model stealing attack (экстракция модели через API)?
…modeling]]) или [[Вики/LLM distillation\|distillation]] [[Вики/Loss\|loss]] (если учитель выдает несколько кандидатов). - [[Вики/training\|Обучение]] на собранном датасете…
answerКак оптимизировать траектории агента (trajectory optimization)?
…Инициализировать политику (LLM-агент) и запустить обучение. Термин **функция награды (reward function)** — правило, которое после каждого эпизода вычисляет численную оценку…
answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…Влияние на обучение LLM ### 5.1. Распределённое обучение Обучение больших моделей требует тензорного параллелизма (разбиение слоёв между GPU) и конвейерного…
wikiSuccess rate
…Как вы защищаете LLM от градиентных атак (white-box jailbreak)|355. Как вы защищаете LLM от градиентных атак (white-box…
answerЧто такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)?
…Что такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)? ## Краткий тезис [[Вики/loss landscape…
wikilearning-to-rank
# learning-to-rank ## Определение Класс методов машинного обучения для упорядочивания документов по релевантности запросу; применяется в retrieval для LLM, например…
answerЧто такое curriculum learning для LLM и как его реализовать?
…Зачем curriculum learning для LLM? [[Вики/training\|Обучение]] [[Вики/LLM\|LLM]] «с нуля» на длинных последовательностях (например, 8192 токена) сразу…
answerЧто такое curriculum learning for synthetic data (обучение на легких данных сначала)?
…Curriculum Learning (обучение по учебному плану) **[[Вики/Curriculum Learning\|Curriculum Learning]]** — это парадигма машинного обучения, вдохновлённая человеческим обучением: сначала изучаются…
answerКак вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофического забывания?
…Continuous learning]] для LLM-агента в [[Вики/production\|production]] — это не [[Вики/Online learning\|онлайн-обучение]] на каждом запросе, а…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать process reward model (PRM)
…Технологический стек | Компонент | Инструменты | Назначение | |-----------|-------------|------------| | Язык программирования | Python 3.10+ | Реализация модели и скриптов | | Глубокое обучение | PyTorch 2.x | Обучение…
wikicost per request
…Что такое agent distillation (обучение маленького агента на траекториях большого)]] - [[775. Что такое Cost Engineering для LLM-систем|775. Что…
wikiMemory
…Какие 3 книгикурса вы рекомендуете по production LLM|80. Какие 3 книгикурса вы рекомендуете по production LLM]] - [[141. В чем…
answerКак измерять ROI от fine-tuning (окупается ли дообучение более дешёвым инференсом)?
…Использовать 50–200 примеров, активное обучение | Может не хватить на сложные задачи | | [[Вики/LLM distillation\|Knowledge distillation]] | Fine-tuning маленькой…
answerКак работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?
…Обучение и loss функции [[Вики/training\|Обучение]] [[Вики/Chameleon\|Chameleon]] состоит из двух этапов: 1. [[Вики/pre-training\|Предобучение]] [[Вики…
wikiReinforcement Learning from Human Feedback
# Reinforcement Learning from Human Feedback ## Определение Метод обучения с подкреплением на основе человеческих предпочтений, включающий обучение модели вознаграждения и оптимизацию…
answerЧто такое **agent distillation** (обучение маленького агента на траекториях большого)?
…Что такое **agent distillation** (обучение маленького агента на траекториях большого)? ## Краткий тезис **Agent distillation** — это техника сжатия AI-агента, при…
answerКак работает dropout и зачем он нужен в LLM? (regularization)
…Что такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)\|670]] | Как работает Layer Normalization…
answerКак вы тестируете RAG-систему на новых документах без реальных пользователей?
…template(template) llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.7) chain = prompt | llm | parser chunk = "Глубокое обучение — это подмножество…
answerЧто такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной?
…Как вы оцениваете cost-effectiveness LLM-пайплайна\|139]] | Reward model: архитектура и обучение | | [[140. Как вы проверяете, что новая версия…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: LoRA для function calling
…квантизация и обучение в 4-bit | | 538 | Как сгенерировать синтетический датасет с помощью LLM? | | 672 | Masking loss для обучения чат…
answerКак работает связь между SGD и Adam? Почему Adam лучше для LLM?
…Что такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)\|670]] | Другие оптимизаторы (RMSprop, AdaGrad…