Оглавление
Вопросы
Практика
Вики
Материалы сообщества
Тесты
Поиск

✈Telegram @ai_varo

…

Оглавление/Вики/Perplexity

Perplexity

Perplexity

Определение

Метрика для языковых моделей, показывающая, насколько модель «удивлена» данными.

Где встречается

25. Как вы оцениваете качество после fine-tuning
61. Как вы разворачиваете LLM в production (self-hosted)
80. Какие 3 книгикурса вы рекомендуете по production LLM
138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
161. Как вы измеряете эффективность speculative decoding
164. Какие trade-offs между разными архитектурами speculative decoding
195. Как вы проверяете, что модель действительно использует структуру представления, а не игнорирует ее
215. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
259. Как вы генерируете synthetic данные для instruction tuning
277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
278. Как работает RoPE (Rotary Position Embedding) и чем лучше абсолютных позиций
279. Что такое SwiGLU и почему он используется вместо ReLU в современных LLM
281. Что такое sliding window attention и зачем он в Mistral
283. Что такое selective attention в контексте long context обработки
284. Как работают современные tokenizers (BPE, Unigram, SentencePiece) и их ограничения
286. Как вы детектируете и фиксите attention sinks в длинных контекстах
289. Как работает speculative decoding на уровне логитов, а не токенов
293. Что такое Top-p (nucleus) sampling и как он сочетается с temperature
312. Как работает FP8 quantization на H100 (Transformer Engine)
336. Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO
350. Как вы детектируете data contamination в evaluation датасетах
351. Как работает model stealing attack и как защититься
355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
357. Как работает membership inference атака на LLM
358. Что такое watermarking для LLM генераций и как его детектировать
360. Что такое adversarial fine-tuning для защиты от jailbreak
432. Как работает FlashAttention-3 технически Чем отличается от FA2
434. Как работает grouped-query attention (GQA) и как trade-off speedquality
440. Как работает speculative decoding Как выбрать draft модель
441. EAGLE-3 vs Medusa-2 vs Hydra сравнение speculative decoding методов.
443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.
450. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
460. Как работает tensor parallelism с FP8 в vLLM
466. Что такое curriculum learning для LLM и как его реализовать
477. Что такое curriculum learning на уровне данных для LLM
484. Что такое ReFT (Representation Fine-Tuning) и когда он лучше LoRA
488. Что такое benchmark contamination и как ее детектировать
544. Как вы строите real-time voice agent с latency 500ms
602. Как работает membership inference атака на LLM
611. Как работает adversarial example для embedding моделей (атака на retrieval)

Навигация

Индекс терминов
Индекс разборов
Оглавление