Оглавление
Вопросы
Практика
Вики
Материалы сообщества
Тесты
Поиск

✈Telegram @ai_varo

…

Оглавление/Вики/DistilGPT2

DistilGPT2

DistilGPT2

Определение

Уменьшенная версия GPT-2, используемая как draft-модель в speculative decoding или для экспериментов с генерацией текста.

Где встречается

36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
164. Какие trade-offs между разными архитектурами speculative decoding
215. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
250. Как вы делаете health check для LLM сервера с учетом модели (не только процесс)
292. Как работает temperature sampling и как он влияет на качество при разных значениях
295. Что такое logit lens и как он помогает понимать внутренние представления
296. Как работает извлечение знаний (knowledge editing) из LLM без переобучения
351. Как работает model stealing attack и как защититься
355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
367. Что такое Q-Former в BLIP-2 и зачем он нужен
446. Что такое chunked prefill и зачем он нужен
456. Что такое Medusa (multiple heads) для speculative decoding
467. Что такое packing sequences и зачем он нужен
475. Почему tokenizer влияет на стоимость training
476. Как работает packing для variable-length sequences в FSDP
484. Что такое ReFT (Representation Fine-Tuning) и когда он лучше LoRA
485. Как вы дебажите training instability (loss spikes, divergence)
507. Что такое calibration в контексте reward model для RLHF
620. Что такое differential privacy для LLM и как она работает
637. Что такое Chain-of-Thought без токенов (latent CoT, COCONUT)
638. Как работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)
654. Как работает LayerNorm и RMSNorm В чем разница и почему RMSNorm быстрее
669. Как работает связь между SGD и Adam Почему Adam лучше для LLM
674. Что такое logit lens (интерпретация скрытых состояний)
675. Как работает dropout и зачем он нужен в LLM (regularization)
825. Что такое autoscaling inference и как его настроить
838. Как speculative decoding ускоряет inference (детально)
220. Настроить wave decoding для коротких ответов
236. RAG с оценкой faithfulness

Навигация

Индекс терминов
Индекс разборов
Оглавление