Поиск

  • wikipacking sequences

    …Что такое packing sequences и зачем он нужен|467. Что такое packing sequences и зачем он нужен]] - [[476. Как работает…

  • answerЧто такое packing sequences и зачем он нужен?

    …Что такое packing sequences [[Вики/packing sequences\|Packing sequences]] ([[Вики/packing sequences\|упаковка последовательностей]]) — это метод, при котором несколько коротких…

  • answerКак работает packing для variable-length sequences в FSDP?

    …Как работает packing для variable-length sequences в FSDP? ## Краткий тезис [[Вики/packing sequences\|Packing]] — это техника объединения нескольких коротких…

  • wikidocument masking

    # document masking ## Определение Техника изоляции контекста в RAG путём маскирования отдельных документов, чтобы предотвратить взаимное влияние при packing последовательностей. ## Где…

  • wikicollate function

    …В контексте packing реализует сортировку, бакетизацию и упаковку последовательностей. ## Где встречается - [[476. Как работает packing для variable-length sequences в…

  • wikicross-contamination

    # cross-contamination ## Определение Проблема в обучении упакованных последовательностей (packing), когда модель может использовать информацию из соседних последовательностей из-за несовершенной…

  • wikivariable-length sequences

    # variable-length sequences ## Определение Последовательности разной длины (диалоги, документы), для обработки которых применяется packing — эффективный метод обучения без паддинга, группирующий…

  • wikiEOS token

    …Что такое packing sequences и зачем он нужен|467. Что такое packing sequences и зачем он нужен]] - [[800+ вопросов|800…

  • wikibinning

    …Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[711…

  • wikimax_position_embeddings

    …Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] ## Навигация…

  • wiki_set_sequence_lengths

    …Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[800…

  • wiki_set_padded_sequence

    …Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[800…

  • wikigradient accumulation

    …Что такое packing sequences и зачем он нужен|467. Что такое packing sequences и зачем он нужен]] - [[468. Почему small…

  • wikipadded sequences

    …Что такое packing sequences и зачем он нужен|467. Что такое packing sequences и зачем он нужен]] - [[473. Что такое…

  • wikiRelative Position Encoding

    …Что такое packing sequences и зачем он нужен|467. Что такое packing sequences и зачем он нужен]] - [[630. Как работает…

  • wikiLoss

    …Что такое packing sequences и зачем он нужен|467. Что такое packing sequences и зачем он нужен]] - [[476. Как работает…

  • wikidata collator

    …Что такое packing sequences и зачем он нужен|467. Что такое packing sequences и зачем он нужен]] - [[223. Fine-tune…

  • wikibucketing

    …Что такое packing sequences и зачем он нужен|467. Что такое packing sequences и зачем он нужен]] - [[473. Что такое…

  • wikiмаскировка

    …Что такое packing sequences и зачем он нужен|467. Что такое packing sequences и зачем он нужен]] - [[476. Как работает…

  • wikiDataLoader

    …Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[56…

  • wikiFSDP

    …Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[800…

  • wikisequence parallelism

    …Что такое packing sequences и зачем он нужен|467. Что такое packing sequences и зачем он нужен]] - [[527. Как вы…

  • wikiFlash Attention 2

    …Что такое packing sequences и зачем он нужен|467. Что такое packing sequences и зачем он нужен]] - [[474. Как работает…

  • wikiDistilGPT2

    …Что такое packing sequences и зачем он нужен|467. Что такое packing sequences и зачем он нужен]] - [[475. Почему tokenizer…

  • answerЧто такое Context Engineering в рамках Harness и почему это отдельный слой?

    Packing — упаковка сообщений [[Вики/packing sequences\|Packing]] — это техника объединения нескольких логических сообщений в одно, чтобы сократить количество токенов и…

  • wikiMegatron-LM

    …Что такое packing sequences и зачем он нужен|467. Что такое packing sequences и зачем он нужен]] - [[485. Как вы…

  • wikiPosition Encoding

    …Что такое packing sequences и зачем он нужен|467. Что такое packing sequences и зачем он нужен]] - [[485. Как вы…

  • wikiattention masking

    # attention masking ## Определение Техника, ограничивающая область внимания модели; используется для игнорирования padding при packing последовательностей или для реализации авторегрессионной генерации…

  • wikicontinuous batching

    …Что такое packing sequences и зачем он нужен|467. Что такое packing sequences и зачем он нужен]] - [[476. Как работает…

  • wikiCheckpoints

    …Что такое packing sequences и зачем он нужен|467. Что такое packing sequences и зачем он нужен]] - [[469. Как работает…

  • wikiгибридный поиск

    …Что такое packing sequences и зачем он нужен|467. Что такое packing sequences и зачем он нужен]] - [[486. Почему LLM…

  • wikiPyTorch

    …Что такое packing sequences и зачем он нужен|467. Что такое packing sequences и зачем он нужен]] - [[480. Как работает…

  • wikiFlashAttention

    …Что такое packing sequences и зачем он нужен|467. Что такое packing sequences и зачем он нужен]] - [[474. Как работает…

  • answerНазовите 12+ слоёв эталонной архитектуры Harness?

    …агента\|инструкция]], [[Вики/History\|история]], документы, инструменты). - [[Вики/packing sequences\|Packing]] — упаковка нескольких коротких запросов в один для повышения [[Вики…

  • answerПочему small batch size (<32) ухудшает training стабильность?

    …Что такое packing sequences и зачем он нужен\|467]] | Почему large batch size ухудшает обобщение? | | [[469. Как работает Mixed Precision…

  • answerЧто такое curriculum learning на уровне данных для LLM?

    …Как работает packing для variable-length sequences в FSDP\|476]] | Data mixing strategies для LLM | | [[478. Как работает distributed optimizer…

  • answerЧто такое curriculum learning для LLM и как его реализовать?

    …Что такое packing sequences и зачем он нужен\|467]] | Что такое progressive training? | | [[468. Почему small batch size (32) ухудшает…

  • answerПочему tokenizer влияет на стоимость training?

    …Как работает packing для variable-length sequences в FSDP\|476]] | Почему fine-tuning стоит дешевле, чем pre-training? | | [[480. Как…

  • answerЧто такое DeepSpeed ZeRO-Offload и когда он полезен?

    …Что такое packing sequences и зачем он нужен\|467]] | Что такое gradient checkpointing? | | [[468. Почему small batch size (32) ухудшает…

  • answerЧто такое activation offloading и когда он нужен?

    …Как работает packing для variable-length sequences в FSDP\|476]] | Distributed training (общие принципы) | --- ## Навигация (Obsidian) - Предыдущий: [[478. Как работает…

  • answerКак работает FSDP (Fully Sharded Data Parallel) в PyTorch?

    …Как работает packing для variable-length sequences в FSDP\|476]] | Что такое tensor parallelism и когда его использовать? | --- ## Навигация (Obsidian…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Fine-tune QLoRA на 1 GPU

    …seq_length=512, # обрезаем длинные примеры до 512 токенов packing=False # для простоты ) # Перед обучением проверьте, что trainer может разместить…

  • answerПочему training 70B модели требует optimizer sharding (ZeRO-3)?

    …Что такое packing sequences и зачем он нужен\|467]] | Как работает mixed precision training (FP16/BF16)? | | [[468. Почему small batch…

  • indexИндекс разборов

    …Что такое packing sequences и зачем он нужен\|467. Что такое packing sequences и зачем он нужен?]] - [[468. Почему small…

  • indexОглавление

    …Что такое packing sequences и зачем он нужен\|467. Что такое packing sequences и зачем он нужен?]] - [[Вопросы/Ответы/468…

  • question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)

    …Что такое packing sequences и зачем он нужен?** > _Ответ:_ При training на разных длинах последовательностей, короткие догружаются паддингом — теряем compute…

  • wikiИндекс терминов

    …Pachyderm|Pachyderm]] - [[Вики/Packet loss|Packet loss]] - [[Вики/packing sequences|packing sequences]] - [[Вики/Pact|Pact]] - [[Вики/Pad Tokens|Pad Tokens…