PyTorch
PyTorch
Определение
Фреймворк глубокого обучения с динамическим графом вычислений, широко используемый для обучения и инференса LLM. Предоставляет утилиты управления памятью GPU и оптимизации производительности.
Где встречается
- 35. Как вы fine-tune embedding модель под свой домен (а не используете готовую)
- 36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
- 37. Как вы избегаете переобучения при fine-tuning на маленьком датасете
- 77. Как вы оптимизируете embedding генерацию для большого количества документов
- 129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)
- 138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
- 283. Что такое selective attention в контексте long context обработки
- 289. Как работает speculative decoding на уровне логитов, а не токенов
- 294. Как вы калибруете вероятности LLM для classification задач
- 295. Что такое logit lens и как он помогает понимать внутренние представления
- 297. Что такое representation engineering (RepE) и зачем он нужен
- 299. Как работает attention между слоями (cross-layer attention) в современных архитектурах
- 324. Что такое TVM (Apache TVM) и зачем он нужен для AI инференса
- 326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
- 336. Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO
- 361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
- 368. Как вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)
- 456. Что такое Medusa (multiple heads) для speculative decoding
- 467. Что такое packing sequences и зачем он нужен
- 480. Как работает selective activation recomputation
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 537. Что такое SigLIP и чем отличается от CLIP
- 540. Как работает Q-Former в BLIP-2 и зачем он нужен
- 547. Как вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)
- 549. Как вы проектируете систему для real-time video understanding (поток с камеры)
- 564. Как работает модели типа Kosmos-2 (grounding объектов на изображении)
- 622. Как работает membership inference через logits (разница в вероятностях)
- 627. Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)
- 632. Как работает Infini-attention (Google, 2024) для бесконечного контекста
- 637. Что такое Chain-of-Thought без токенов (latent CoT, COCONUT)
- 638. Как работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)
- 642. Как вы реализуете KV cache для 1M токенов на 8x H100
- 651. Как работает attention математически Выведите формулу scaled dot-product attention.
- 654. Как работает LayerNorm и RMSNorm В чем разница и почему RMSNorm быстрее
- 655. Что такое SwiGLU и почему он лучше ReLU в LLM
- 659. Что такое Adam optimizer и как работают его параметры (β1, β2, ε, learning rate)
- 664. Что такое vanishing exploding gradients в трансформерах и как их предотвратить
- 669. Как работает связь между SGD и Adam Почему Adam лучше для LLM
- 675. Как работает dropout и зачем он нужен в LLM (regularization)
- 680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)