Sliding window chunking

Определение

Техника разбиения текста на перекрывающиеся фрагменты для сохранения контекста на границах. Используется в RAG для улучшения качества поиска и в моделях внимания для обработки длинных последовательностей.

Где встречается

3 Какие стратегии chunking'а вы знаете и когда какую применяете
19. Как вы храните историю диалога в RAG для multi-turn QA
65. Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)
90. Как вы проектируете API для внешних систем, использующих вашу LLM
114. Что такое Layout-Aware Chunking и как он связан с мультимодальностью
129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)
177. Как вы измеряете дрейф модели (model drift) для LLM
210. Что такое chunked prefill и зачем он нужен
237. Что такое circuit breaker и как он применяется к LLM API вызовам
248. Что такое rate limiting на разных уровнях (user, API key, IP, global) и как реализовать
249. Как вы делаете load shedding при перегрузке LLM сервера
269. Как вы обрабатываете streaming данные для real-time RAG
277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
281. Что такое sliding window attention и зачем он в Mistral
283. Что такое selective attention в контексте long context обработки
286. Как вы детектируете и фиксите attention sinks в длинных контекстах
404. Что такое circuit breaker и как он применяется к LLM API вызовам
411. Как вы проектируете backpressure в LLM serving системе
433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
434. Как работает grouped-query attention (GQA) и как trade-off speedquality
524. Как вы обрабатываете streaming данные для real-time RAG
543. Как работает Whisper архитектурно для ASR (Automatic Speech Recognition)
549. Как вы проектируете систему для real-time video understanding (поток с камеры)
626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)
628. Что такое attention sink и почему он возникает в длинных контекстах
629. Как работает sliding window attention в Mistral и Longformer
631. Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)
641. Что такое grouped-query attention (GQA) как компромисс для long context
642. Как вы реализуете KV cache для 1M токенов на 8x H100
645. Что такое hierarchical retrieval для long context RAG (когда контекст 100k)
648. Что такое streaming LLM для бесконечного контекста (техника rollback)
667. Как работает FlashAttention математически (tiling, recomputation, не материализуя S)
668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
689. Как вы проектируете dynamic benchmark (меняющийся со временем)
829. Что такое rate limiting на уровне API Gateway для LLM
830. Как проектировать retry storm mitigation (защита от лавинных ретраев)
800+ вопросов
38. Настроить TTL для semantic cache
144. Настроить anomaly detection по cost
169. Реализовать rollback промпта

Sliding window chunking

Sliding window chunking

Определение

Где встречается

Навигация

Sliding window chunking

Sliding window chunking

Определение

Где встречается

Навигация