English translation is not available yet. Showing Russian content.
Long Context
Long Context
Определение
Режим работы моделей, требующий обработки входных последовательностей большой длины (например, более 50k токенов), что создаёт вызовы для attention-механизма из-за квадратичной сложности. Для эффективной обработки применяются методы вроде FlashAttention, MQA, activation offloading.
Где встречается
- 283. Что такое selective attention в контексте long context обработки
- 301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
- 639. Как вы делаете model selection для long context (какая модель лучше держит 100k+)
- 640. Как работает Multi-query attention (MQA) для long context
- 641. Что такое grouped-query attention (GQA) как компромисс для long context
- 647. Как вы делаете long context для code generation (модель должна видеть весь репозиторий)
- 709. NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving
- 710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
- 716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context
- Практика
- 800+ вопросов
- 60. Настроить гибрид (Mamba + Attention)
- 212. Настроить chunked prefill для long context