Поиск

  • wikidistributed training

    …Какие 3 книгикурса вы рекомендуете по production LLM|80. Какие 3 книгикурса вы рекомендуете по production LLM]] - [[800+ вопросов|800…

  • wikinext token prediction

    …Что такое AI for materials science (GNoME, MatterGen) и как это отличается от text LLM]] - [[898. Как работает Toolformer (обучение

  • wikiSFT

    …Как вы дебажите проблему LLM не следовала системному промпту|93. Как вы дебажите проблему LLM не следовала системному промпту]] - [[326…

  • wikicontinuous learning

    …Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)|680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг…

  • wikiEdge deployment

    …Как вы обеспечиваете низкую задержку (500ms) для LLM|64. Как вы обеспечиваете низкую задержку (500ms) для LLM]] - [[544. Как вы…

  • wikiself-supervision

    …Как работает кросс-энтропия (cross-entropy loss) для LLM обучения|656. Как работает кросс-энтропия (cross-entropy loss) для LLM

  • wikicurriculum adversarial training

    # curriculum adversarial training ## Определение Метод защиты LLM от атак, при котором сложность атак постепенно увеличивается в процессе обучения. ## Где встречается…

  • wikiData Filtering

    # Data Filtering ## Определение Метод отсева шумных данных перед обучением модели, часто комбинируемый с curriculum learning для улучшения качества. ## Где встречается…

  • wikifederated learning

    …Что такое secure aggregation для федеративного обучения LLM|623. Что такое secure aggregation для федеративного обучения LLM]] - [[800+ вопросов|800…

  • wikiensemble adversarial training

    # ensemble adversarial training ## Определение Метод защиты LLM от градиентных атак, при котором модель обучается на атаках, сгенерированных несколькими различными моделями…

  • wikisparse gradients

    LLM многие параметры получают градиенты редко (разреженные градиенты). Adam автоматически увеличивает learning rate для таких параметров, что улучшает обучение. ## Где…

  • wikiSelf-paced Learning

    …Что такое curriculum learning на уровне данных для LLM|477. Что такое curriculum learning на уровне данных для LLM]] ## Навигация…

  • wikiPreference tuning

    …Что такое Positional bias в LLM-as-Judge и как его исправить|493. Что такое Positional bias в LLM-as…

  • wikionline/offline feature consistency

    # online/offline feature consistency ## Определение Проблема расхождения признаков между обучением и инференсом для LLM, критическая для MLOps, когда признаки при…

  • wikiaction

    …n8n, Make, Zapier — как вы интегрируете их с LLM|59. n8n, Make, Zapier — как вы интегрируете их с LLM]] - [[75…

  • answerКак работает Toolformer (обучение агента использованию инструментов)?

    …зачем LLM инструменты? Современные [[Вики/LLM\|LLM]] отлично генерируют текст, но не умеют: - выполнять точные арифметические действия (2 + 3 * 5…

  • wikiVariational Speculative Decoding

    # Variational Speculative Decoding ## Определение Метод ускорения инференса LLM, который переформулирует обучение draft модели через вариационные методы для прямой оптимизации acceptance…

  • wikiDeep Ensembles

    Обучение нескольких независимых моделей; усреднение предсказаний и разброс как uncertainty. ## Где встречается - [[291. Как вы измеряете uncertainty в ответах LLM

  • wikidead neurons

    …входов и его градиент становится нулевым, что останавливает обучение. В LLM вместо ReLU используют SwiGLU для избежания этой проблемы. ## Где…

  • wikiplanning

    …Как работает Toolformer (обучение агента использованию инструментов)|898. Как работает Toolformer (обучение агента использованию инструментов)]] - [[800+ вопросов|800+ вопросов]] ## Навигация…

  • answerКак работает инициализация весов в LLM (Xavier, Kaiming, почему важна)?

    …Что такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)\|670]] | Fine-tuning LLM (как…

  • wikiProgressive training

    …Применяется для эффективного обучения LLM. ## Где встречается - [[466. Что такое curriculum learning для LLM и как его реализовать|466. Что…

  • answerКак вы делаете agent с bounded rationality (ограниченные вычислительные ресурсы)?

    обучение (прогнозирование сложности задачи) **[[Вики/meta-learning\|Мета-обучение]]** — [[Вики/training\|обучение]] отдельной модели (или самого [[Вики/GPT-4o\|LLM

  • wikiLightGBM

    # LightGBM ## Определение Популярная библиотека градиентного бустинга, поддерживающая обучение ранжирующих моделей (LGBMRanker) с objective='lambdarank'. Используется для классификации, регрессии и learning…

  • wikiReinforcement Learning

    # Reinforcement Learning ## Определение Метод обучения агентов через взаимодействие со средой с получением наград или штрафов; применяется для выравнивания LLM и…

  • wikixFormers

    …Обеспечивает эффективный инференс и обучение за счёт padding-free batching и других оптимизаций. ## Где встречается - [[302. Что такое warp divergence…

  • answerПочему BF16 лучше FP16 для training?

    …На практике оптимальным является смешанное обучение (precision precision precision training|mixed precision) с использованием BF16 для прямого и обратного проходов…

  • answerКак работает Toolformer-like обучение для агентов (self-supervised tool use)?

    LLM]] (например, [[Вики/GPT-3\|GPT-3]]) научиться использовать инструменты (калькулятор, [[Вики/retrieval\|поисковик]], переводчик, календарь) через [[Вики/training\|обучение

  • wikiFew-shot examples

    …Как вы дебажите проблему LLM не следовала системному промпту|93. Как вы дебажите проблему LLM не следовала системному промпту]] - [[94…

  • answerКак работает model stealing attack (экстракция модели через API)?

    …modeling]]) или [[Вики/LLM distillation\|distillation]] [[Вики/Loss\|loss]] (если учитель выдает несколько кандидатов). - [[Вики/training\|Обучение]] на собранном датасете…

  • answerКак оптимизировать траектории агента (trajectory optimization)?

    …Инициализировать политику (LLM-агент) и запустить обучение. Термин **функция награды (reward function)** — правило, которое после каждого эпизода вычисляет численную оценку…

  • answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?

    …Влияние на обучение LLM ### 5.1. Распределённое обучение Обучение больших моделей требует тензорного параллелизма (разбиение слоёв между GPU) и конвейерного…

  • wikiSuccess rate

    …Как вы защищаете LLM от градиентных атак (white-box jailbreak)|355. Как вы защищаете LLM от градиентных атак (white-box…

  • answerЧто такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)?

    …Что такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)? ## Краткий тезис [[Вики/loss landscape…

  • wikilearning-to-rank

    # learning-to-rank ## Определение Класс методов машинного обучения для упорядочивания документов по релевантности запросу; применяется в retrieval для LLM, например…

  • answerЧто такое curriculum learning для LLM и как его реализовать?

    …Зачем curriculum learning для LLM? [[Вики/training\|Обучение]] [[Вики/LLM\|LLM]] «с нуля» на длинных последовательностях (например, 8192 токена) сразу…

  • answerЧто такое curriculum learning for synthetic data (обучение на легких данных сначала)?

    …Curriculum Learning (обучение по учебному плану) **[[Вики/Curriculum Learning\|Curriculum Learning]]** — это парадигма машинного обучения, вдохновлённая человеческим обучением: сначала изучаются…

  • answerКак вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофического забывания?

    …Continuous learning]] для LLM-агента в [[Вики/production\|production]] — это не [[Вики/Online learning\|онлайн-обучение]] на каждом запросе, а…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать process reward model (PRM)

    …Технологический стек | Компонент | Инструменты | Назначение | |-----------|-------------|------------| | Язык программирования | Python 3.10+ | Реализация модели и скриптов | | Глубокое обучение | PyTorch 2.x | Обучение

  • wikicost per request

    …Что такое agent distillation (обучение маленького агента на траекториях большого)]] - [[775. Что такое Cost Engineering для LLM-систем|775. Что…

  • wikiMemory

    …Какие 3 книгикурса вы рекомендуете по production LLM|80. Какие 3 книгикурса вы рекомендуете по production LLM]] - [[141. В чем…

  • answerКак измерять ROI от fine-tuning (окупается ли дообучение более дешёвым инференсом)?

    …Использовать 50–200 примеров, активное обучение | Может не хватить на сложные задачи | | [[Вики/LLM distillation\|Knowledge distillation]] | Fine-tuning маленькой…

  • answerКак работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?

    Обучение и loss функции [[Вики/training\|Обучение]] [[Вики/Chameleon\|Chameleon]] состоит из двух этапов: 1. [[Вики/pre-training\|Предобучение]] [[Вики…

  • wikiReinforcement Learning from Human Feedback

    # Reinforcement Learning from Human Feedback ## Определение Метод обучения с подкреплением на основе человеческих предпочтений, включающий обучение модели вознаграждения и оптимизацию…

  • answerЧто такое **agent distillation** (обучение маленького агента на траекториях большого)?

    …Что такое **agent distillation** (обучение маленького агента на траекториях большого)? ## Краткий тезис **Agent distillation** — это техника сжатия AI-агента, при…

  • answerКак работает dropout и зачем он нужен в LLM? (regularization)

    …Что такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)\|670]] | Как работает Layer Normalization…

  • answerКак вы тестируете RAG-систему на новых документах без реальных пользователей?

    …template(template) llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.7) chain = prompt | llm | parser chunk = "Глубокое обучение — это подмножество…

  • answerЧто такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной?

    …Как вы оцениваете cost-effectiveness LLM-пайплайна\|139]] | Reward model: архитектура и обучение | | [[140. Как вы проверяете, что новая версия…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: LoRA для function calling

    …квантизация и обучение в 4-bit | | 538 | Как сгенерировать синтетический датасет с помощью LLM? | | 672 | Masking loss для обучения чат…

  • answerКак работает связь между SGD и Adam? Почему Adam лучше для LLM?

    …Что такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)\|670]] | Другие оптимизаторы (RMSprop, AdaGrad…