English translation is not available yet. Showing Russian content.
batch size
batch size
Определение
Гиперпараметр, определяющий количество примеров, обрабатываемых за один проход; влияет на стабильность обучения, эффективность квантизации и утилизацию GPU.
Где встречается
- 9. Как вы обновляете документы в существующей RAG-системе
- 13. Как вы загружаете 1000 документов в RAG максимально эффективно
- 35. Как вы fine-tune embedding модель под свой домен (а не используете готовую)
- 37. Как вы избегаете переобучения при fine-tuning на маленьком датасете
- 65. Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)
- 70. Как вы снижаете стоимость LLM в production на 50%+
- 77. Как вы оптимизируете embedding генерацию для большого количества документов
- 82. Как бы вы спроектировали систему для реального времени (real-time) обработки документов
- 129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)
- 157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
- 159. Как speculative decoding взаимодействует с KV cache
- 164. Какие trade-offs между разными архитектурами speculative decoding
- 205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
- 216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
- 220. Как вы выбираете между online и batch инференсом для LLM
- 251. Как вы деплоите LLM на spot instances в облаке
- 277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
- 301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
- 305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
- 310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
- 320. Что такое ONNX Runtime и когда он выгоден для LLM
- 372. Как вы строите двухступенчатый ретривал (fast ANN + slow cross-encoder) в RAG
- 401. Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism
- 426. Что такое 3D parallelism (data + tensor + pipeline)
- 431. Почему LLM inference memory-bound, а не compute-bound
- 434. Как работает grouped-query attention (GQA) и как trade-off speedquality
- 437. Почему decode stage плохо batchится
- 440. Как работает speculative decoding Как выбрать draft модель
- 442. Что такое prefix caching и когда он эффективен
- 444. Почему 4-bit inference иногда медленнее 8-bit
- 453. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 458. Что такое FP8 инференс на H100 (Transformer Engine)
- 460. Как работает tensor parallelism с FP8 в vLLM
- 468. Почему small batch size (32) ухудшает training стабильность
- 472. Почему gradient accumulation эквивалентен большому batch с точки зрения оптимизации
- 480. Как работает selective activation recomputation
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 504. Как вы оцениваете cost-effectiveness LLM-пайплайна
- 519. Как вы делаете backfill эмбеддингов при смене embedding модели
- 640. Как работает Multi-query attention (MQA) для long context