Long Context

Определение

Режим работы моделей, требующий обработки входных последовательностей большой длины (например, более 50k токенов), что создаёт вызовы для attention-механизма из-за квадратичной сложности. Для эффективной обработки применяются методы вроде FlashAttention, MQA, activation offloading.

Где встречается

283. Что такое selective attention в контексте long context обработки
301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
639. Как вы делаете model selection для long context (какая модель лучше держит 100k+)
640. Как работает Multi-query attention (MQA) для long context
641. Что такое grouped-query attention (GQA) как компромисс для long context
647. Как вы делаете long context для code generation (модель должна видеть весь репозиторий)
709. NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving
710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context
Практика
800+ вопросов
60. Настроить гибрид (Mamba + Attention)
212. Настроить chunked prefill для long context

Long Context

Long Context

Определение

Где встречается

Навигация