pre-training

Определение

Pre-training (предобучение) — начальный этап обучения модели с нуля на большом корпусе данных с использованием кросс-энтропии. Для LLM типичны batch size 512–4096 и learning rate 1e-4–3e-4.

Где встречается

80. Какие 3 книгикурса вы рекомендуете по production LLM
468. Почему small batch size (32) ухудшает training стабильность
475. Почему tokenizer влияет на стоимость training
485. Как вы дебажите training instability (loss spikes, divergence)
564. Как работает модели типа Kosmos-2 (grounding объектов на изображении)
656. Как работает кросс-энтропия (cross-entropy loss) для LLM обучения
665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
675. Как работает dropout и зачем он нужен в LLM (regularization)
683. Что такое data augmentation для LLM (back-translation, paraphrasing, masking)
700. Как вы комбинируете реальные и синтетические данные для максимального качества

pre-training

pre-training

Определение

Где встречается

Навигация