Contents
Questions
Practice
Wiki
Community materials
Tests
Search

✈Telegram @ai_varo

…

Contents/Wiki/Softmax

English translation is not available yet. Showing Russian content.

Softmax

Softmax

Определение

Функция нормализации, преобразующая вектор логитов в распределение вероятностей. Широко применяется в механизме внимания трансформеров и в выходном слое для многоклассовой классификации.

Где встречается

2 Как вы решаете проблему lost in the middle при работе с длинными контекстами
153. Что такое ∇-Reasoner (nabla-reasoner) и как он использует градиентный спуск на этапе теста
289. Как работает speculative decoding на уровне логитов, а не токенов
292. Как работает temperature sampling и как он влияет на качество при разных значениях
293. Что такое Top-p (nucleus) sampling и как он сочетается с temperature
295. Что такое logit lens и как он помогает понимать внутренние представления
301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
302. Что такое warp divergence в CUDA и как он влияет на attention
348. Что такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)
361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
622. Как работает membership inference через logits (разница в вероятностях)
628. Что такое attention sink и почему он возникает в длинных контекстах
646. Как работает attention с линейной сложностью (Linformer, Performer, Longformer)
651. Как работает attention математически Выведите формулу scaled dot-product attention.
652. Почему в формуле attention нужно делить на √d_k Что будет без масштабирования
656. Как работает кросс-энтропия (cross-entropy loss) для LLM обучения
661. Как работает softmax и почему он вызывает проблемы с градиентами при больших logits
662. Что такое logits и как они связаны с вероятностями temperature scaling
674. Что такое logit lens (интерпретация скрытых состояний)
675. Как работает dropout и зачем он нужен в LLM (regularization)
677. Как работает forward pass LLM от токена до вероятности следующего токена
679. Что такое repetition penalty и как он работает
704. Что такое bank conflicts в shared memory и как их избежать
706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3
711. Как работает speculative execution на GPU для LLM (branch prediction)
712. Что такое Cooperative Groups в CUDA и как использовать для attention
800+ вопросов

Навигация

Индекс терминов
Индекс разборов
Оглавление