Long Context
Long Context
Определение
Режим работы моделей, требующий обработки входных последовательностей большой длины (например, более 50k токенов), что создаёт вызовы для attention-механизма из-за квадратичной сложности. Для эффективной обработки применяются методы вроде FlashAttention, MQA, activation offloading.
Где встречается
- 283. Что такое selective attention в контексте long context обработки
- 301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
- 639. Как вы делаете model selection для long context (какая модель лучше держит 100k+)
- 640. Как работает Multi-query attention (MQA) для long context
- 641. Что такое grouped-query attention (GQA) как компромисс для long context
- 647. Как вы делаете long context для code generation (модель должна видеть весь репозиторий)
- 709. NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving
- 710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
- 716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context
- Практика
- 800+ вопросов
- 60. Настроить гибрид (Mamba + Attention)
- 212. Настроить chunked prefill для long context