Checkpoints

Определение

Сохранение состояния модели или системы в контрольных точках для возобновления после сбоя. Также техника экономии памяти при обучении, когда промежуточные активации пересчитываются, а не хранятся.

Где встречается

33. Какие фреймворки для fine-tuning вы используете
34. Какая у вас была самая сложная проблема при fine-tuning и как вы её решили
35. Как вы fine-tune embedding модель под свой домен (а не используете готовую)
43. Как спроектировать агента, который может выполнять цепочку из 5-10 действий
56. Как вы делаете агента отказоустойчивым (graceful degradation)
82. Как бы вы спроектировали систему для реального времени (real-time) обработки документов
276. Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется
426. Что такое 3D parallelism (data + tensor + pipeline)
461. Почему training 70B модели требует optimizer sharding (ZeRO-3)
463. Что такое activation recomputation (checkpointing) и зачем оно нужно
465. Как работает gradient checkpointing в DeepSpeed
467. Что такое packing sequences и зачем он нужен
469. Как работает Mixed Precision Training (FP16 + FP32 master веса)
470. Что такое DeepSpeed ZeRO-Offload и когда он полезен
472. Почему gradient accumulation эквивалентен большому batch с точки зрения оптимизации
474. Как работает FlashAttention для training (не только inference)
480. Как работает selective activation recomputation
485. Как вы дебажите training instability (loss spikes, divergence)
524. Как вы обрабатываете streaming данные для real-time RAG
586. Что такое agent state management (состояние агента между вызовами)
636. Как вы проектируете промпт для long context рассуждения (CoT, ToT, GoT)
748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)
756. Как выглядит process operational excellence в Harness Engineering (ORR, Operational Reviews)
770. Что такое «откат делегирования» (rollback delegation) при ошибке
773. Как измерять «коэффициент полезного делегирования» (сколько задач решено правильно)
790. Что такое «canary testing» для агентов (10% трафика на новую версию)
896. Как сделать агента самовосстанавливающимся (self-healing)
Практика
800+ вопросов
13. Сравнить S3 vs EBS для checkpoint'ов 70B
14. Реализовать WAL для векторной БД
18. Сравнить распределенные FS (Lustre, BeeGFS, JuiceFS)
51. Развернуть Mamba-2 локально
56. Реализовать diffusion LLM (PLANNER)
73. Сравнить spot vs on-demand для batch inference
91. Написать postmortem для retrieval degradation
95. Написать runbook для synthetic data collapse
110. Реализовать quality gates для агента
215. Настроить expert parallelism для Mixtral
244. Fine-tune QLoRA на 1 GPU

Checkpoints

Checkpoints

Определение

Где встречается

Навигация

Checkpoints

Checkpoints

Определение

Где встречается

Навигация