Sliding window chunking
Sliding window chunking
Определение
Техника разбиения текста на перекрывающиеся фрагменты для сохранения контекста на границах. Используется в RAG для улучшения качества поиска и в моделях внимания для обработки длинных последовательностей.
Где встречается
- 3 Какие стратегии chunking'а вы знаете и когда какую применяете
- 19. Как вы храните историю диалога в RAG для multi-turn QA
- 65. Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)
- 90. Как вы проектируете API для внешних систем, использующих вашу LLM
- 114. Что такое Layout-Aware Chunking и как он связан с мультимодальностью
- 129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)
- 177. Как вы измеряете дрейф модели (model drift) для LLM
- 210. Что такое chunked prefill и зачем он нужен
- 237. Что такое circuit breaker и как он применяется к LLM API вызовам
- 248. Что такое rate limiting на разных уровнях (user, API key, IP, global) и как реализовать
- 249. Как вы делаете load shedding при перегрузке LLM сервера
- 269. Как вы обрабатываете streaming данные для real-time RAG
- 277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
- 281. Что такое sliding window attention и зачем он в Mistral
- 283. Что такое selective attention в контексте long context обработки
- 286. Как вы детектируете и фиксите attention sinks в длинных контекстах
- 404. Что такое circuit breaker и как он применяется к LLM API вызовам
- 411. Как вы проектируете backpressure в LLM serving системе
- 433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
- 434. Как работает grouped-query attention (GQA) и как trade-off speedquality
- 524. Как вы обрабатываете streaming данные для real-time RAG
- 543. Как работает Whisper архитектурно для ASR (Automatic Speech Recognition)
- 549. Как вы проектируете систему для real-time video understanding (поток с камеры)
- 626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)
- 628. Что такое attention sink и почему он возникает в длинных контекстах
- 629. Как работает sliding window attention в Mistral и Longformer
- 631. Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)
- 641. Что такое grouped-query attention (GQA) как компромисс для long context
- 642. Как вы реализуете KV cache для 1M токенов на 8x H100
- 645. Что такое hierarchical retrieval для long context RAG (когда контекст 100k)
- 648. Что такое streaming LLM для бесконечного контекста (техника rollback)
- 667. Как работает FlashAttention математически (tiling, recomputation, не материализуя S)
- 668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
- 689. Как вы проектируете dynamic benchmark (меняющийся со временем)
- 829. Что такое rate limiting на уровне API Gateway для LLM
- 830. Как проектировать retry storm mitigation (защита от лавинных ретраев)
- 800+ вопросов
- 38. Настроить TTL для semantic cache
- 144. Настроить anomaly detection по cost
- 169. Реализовать rollback промпта