Checkpoints
Checkpoints
Определение
Сохранение состояния модели или системы в контрольных точках для возобновления после сбоя. Также техника экономии памяти при обучении, когда промежуточные активации пересчитываются, а не хранятся.
Где встречается
- 33. Какие фреймворки для fine-tuning вы используете
- 34. Какая у вас была самая сложная проблема при fine-tuning и как вы её решили
- 35. Как вы fine-tune embedding модель под свой домен (а не используете готовую)
- 43. Как спроектировать агента, который может выполнять цепочку из 5-10 действий
- 56. Как вы делаете агента отказоустойчивым (graceful degradation)
- 82. Как бы вы спроектировали систему для реального времени (real-time) обработки документов
- 276. Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется
- 426. Что такое 3D parallelism (data + tensor + pipeline)
- 461. Почему training 70B модели требует optimizer sharding (ZeRO-3)
- 463. Что такое activation recomputation (checkpointing) и зачем оно нужно
- 465. Как работает gradient checkpointing в DeepSpeed
- 467. Что такое packing sequences и зачем он нужен
- 469. Как работает Mixed Precision Training (FP16 + FP32 master веса)
- 470. Что такое DeepSpeed ZeRO-Offload и когда он полезен
- 472. Почему gradient accumulation эквивалентен большому batch с точки зрения оптимизации
- 474. Как работает FlashAttention для training (не только inference)
- 480. Как работает selective activation recomputation
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 524. Как вы обрабатываете streaming данные для real-time RAG
- 586. Что такое agent state management (состояние агента между вызовами)
- 636. Как вы проектируете промпт для long context рассуждения (CoT, ToT, GoT)
- 748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)
- 756. Как выглядит process operational excellence в Harness Engineering (ORR, Operational Reviews)
- 770. Что такое «откат делегирования» (rollback delegation) при ошибке
- 773. Как измерять «коэффициент полезного делегирования» (сколько задач решено правильно)
- 790. Что такое «canary testing» для агентов (10% трафика на новую версию)
- 896. Как сделать агента самовосстанавливающимся (self-healing)
- Практика
- 800+ вопросов
- 13. Сравнить S3 vs EBS для checkpoint'ов 70B
- 14. Реализовать WAL для векторной БД
- 18. Сравнить распределенные FS (Lustre, BeeGFS, JuiceFS)
- 51. Развернуть Mamba-2 локально
- 56. Реализовать diffusion LLM (PLANNER)
- 73. Сравнить spot vs on-demand для batch inference
- 91. Написать postmortem для retrieval degradation
- 95. Написать runbook для synthetic data collapse
- 110. Реализовать quality gates для агента
- 215. Настроить expert parallelism для Mixtral
- 244. Fine-tune QLoRA на 1 GPU