pre-training
pre-training
Определение
Pre-training (предобучение) — начальный этап обучения модели с нуля на большом корпусе данных с использованием кросс-энтропии. Для LLM типичны batch size 512–4096 и learning rate 1e-4–3e-4.
Где встречается
- 80. Какие 3 книгикурса вы рекомендуете по production LLM
- 468. Почему small batch size (32) ухудшает training стабильность
- 475. Почему tokenizer влияет на стоимость training
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 564. Как работает модели типа Kosmos-2 (grounding объектов на изображении)
- 656. Как работает кросс-энтропия (cross-entropy loss) для LLM обучения
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
- 675. Как работает dropout и зачем он нужен в LLM (regularization)
- 683. Что такое data augmentation для LLM (back-translation, paraphrasing, masking)
- 700. Как вы комбинируете реальные и синтетические данные для максимального качества