Perplexity
Perplexity
Определение
Метрика для языковых моделей, показывающая, насколько модель «удивлена» данными.
Где встречается
- 25. Как вы оцениваете качество после fine-tuning
- 61. Как вы разворачиваете LLM в production (self-hosted)
- 80. Какие 3 книгикурса вы рекомендуете по production LLM
- 138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
- 161. Как вы измеряете эффективность speculative decoding
- 164. Какие trade-offs между разными архитектурами speculative decoding
- 195. Как вы проверяете, что модель действительно использует структуру представления, а не игнорирует ее
- 215. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
- 259. Как вы генерируете synthetic данные для instruction tuning
- 277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
- 278. Как работает RoPE (Rotary Position Embedding) и чем лучше абсолютных позиций
- 279. Что такое SwiGLU и почему он используется вместо ReLU в современных LLM
- 281. Что такое sliding window attention и зачем он в Mistral
- 283. Что такое selective attention в контексте long context обработки
- 284. Как работают современные tokenizers (BPE, Unigram, SentencePiece) и их ограничения
- 286. Как вы детектируете и фиксите attention sinks в длинных контекстах
- 289. Как работает speculative decoding на уровне логитов, а не токенов
- 293. Что такое Top-p (nucleus) sampling и как он сочетается с temperature
- 312. Как работает FP8 quantization на H100 (Transformer Engine)
- 336. Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO
- 350. Как вы детектируете data contamination в evaluation датасетах
- 351. Как работает model stealing attack и как защититься
- 355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
- 357. Как работает membership inference атака на LLM
- 358. Что такое watermarking для LLM генераций и как его детектировать
- 360. Что такое adversarial fine-tuning для защиты от jailbreak
- 432. Как работает FlashAttention-3 технически Чем отличается от FA2
- 434. Как работает grouped-query attention (GQA) и как trade-off speedquality
- 440. Как работает speculative decoding Как выбрать draft модель
- 441. EAGLE-3 vs Medusa-2 vs Hydra сравнение speculative decoding методов.
- 443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.
- 450. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
- 460. Как работает tensor parallelism с FP8 в vLLM
- 466. Что такое curriculum learning для LLM и как его реализовать
- 477. Что такое curriculum learning на уровне данных для LLM
- 484. Что такое ReFT (Representation Fine-Tuning) и когда он лучше LoRA
- 488. Что такое benchmark contamination и как ее детектировать
- 544. Как вы строите real-time voice agent с latency 500ms
- 602. Как работает membership inference атака на LLM
- 611. Как работает adversarial example для embedding моделей (атака на retrieval)