English translation is not available yet. Showing Russian content.
Softmax
Softmax
Определение
Функция нормализации, преобразующая вектор логитов в распределение вероятностей. Широко применяется в механизме внимания трансформеров и в выходном слое для многоклассовой классификации.
Где встречается
- 2 Как вы решаете проблему lost in the middle при работе с длинными контекстами
- 153. Что такое ∇-Reasoner (nabla-reasoner) и как он использует градиентный спуск на этапе теста
- 289. Как работает speculative decoding на уровне логитов, а не токенов
- 292. Как работает temperature sampling и как он влияет на качество при разных значениях
- 293. Что такое Top-p (nucleus) sampling и как он сочетается с temperature
- 295. Что такое logit lens и как он помогает понимать внутренние представления
- 301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
- 302. Что такое warp divergence в CUDA и как он влияет на attention
- 348. Что такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)
- 361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
- 622. Как работает membership inference через logits (разница в вероятностях)
- 628. Что такое attention sink и почему он возникает в длинных контекстах
- 646. Как работает attention с линейной сложностью (Linformer, Performer, Longformer)
- 651. Как работает attention математически Выведите формулу scaled dot-product attention.
- 652. Почему в формуле attention нужно делить на √d_k Что будет без масштабирования
- 656. Как работает кросс-энтропия (cross-entropy loss) для LLM обучения
- 661. Как работает softmax и почему он вызывает проблемы с градиентами при больших logits
- 662. Что такое logits и как они связаны с вероятностями temperature scaling
- 674. Что такое logit lens (интерпретация скрытых состояний)
- 675. Как работает dropout и зачем он нужен в LLM (regularization)
- 677. Как работает forward pass LLM от токена до вероятности следующего токена
- 679. Что такое repetition penalty и как он работает
- 704. Что такое bank conflicts в shared memory и как их избежать
- 706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3
- 711. Как работает speculative execution на GPU для LLM (branch prediction)
- 712. Что такое Cooperative Groups в CUDA и как использовать для attention
- 800+ вопросов