DistilGPT2
DistilGPT2
Определение
Уменьшенная версия GPT-2, используемая как draft-модель в speculative decoding или для экспериментов с генерацией текста.
Где встречается
- 36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
- 164. Какие trade-offs между разными архитектурами speculative decoding
- 215. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
- 250. Как вы делаете health check для LLM сервера с учетом модели (не только процесс)
- 292. Как работает temperature sampling и как он влияет на качество при разных значениях
- 295. Что такое logit lens и как он помогает понимать внутренние представления
- 296. Как работает извлечение знаний (knowledge editing) из LLM без переобучения
- 351. Как работает model stealing attack и как защититься
- 355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
- 361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
- 367. Что такое Q-Former в BLIP-2 и зачем он нужен
- 446. Что такое chunked prefill и зачем он нужен
- 456. Что такое Medusa (multiple heads) для speculative decoding
- 467. Что такое packing sequences и зачем он нужен
- 475. Почему tokenizer влияет на стоимость training
- 476. Как работает packing для variable-length sequences в FSDP
- 484. Что такое ReFT (Representation Fine-Tuning) и когда он лучше LoRA
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 507. Что такое calibration в контексте reward model для RLHF
- 620. Что такое differential privacy для LLM и как она работает
- 637. Что такое Chain-of-Thought без токенов (latent CoT, COCONUT)
- 638. Как работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)
- 654. Как работает LayerNorm и RMSNorm В чем разница и почему RMSNorm быстрее
- 669. Как работает связь между SGD и Adam Почему Adam лучше для LLM
- 674. Что такое logit lens (интерпретация скрытых состояний)
- 675. Как работает dropout и зачем он нужен в LLM (regularization)
- 825. Что такое autoscaling inference и как его настроить
- 838. Как speculative decoding ускоряет inference (детально)
- 220. Настроить wave decoding для коротких ответов
- 236. RAG с оценкой faithfulness