batch size

Определение

Гиперпараметр, определяющий количество примеров, обрабатываемых за один проход; влияет на стабильность обучения, эффективность квантизации и утилизацию GPU.

Где встречается

9. Как вы обновляете документы в существующей RAG-системе
13. Как вы загружаете 1000 документов в RAG максимально эффективно
35. Как вы fine-tune embedding модель под свой домен (а не используете готовую)
37. Как вы избегаете переобучения при fine-tuning на маленьком датасете
65. Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)
70. Как вы снижаете стоимость LLM в production на 50%+
77. Как вы оптимизируете embedding генерацию для большого количества документов
82. Как бы вы спроектировали систему для реального времени (real-time) обработки документов
129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)
157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
159. Как speculative decoding взаимодействует с KV cache
164. Какие trade-offs между разными архитектурами speculative decoding
205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
220. Как вы выбираете между online и batch инференсом для LLM
251. Как вы деплоите LLM на spot instances в облаке
277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
320. Что такое ONNX Runtime и когда он выгоден для LLM
372. Как вы строите двухступенчатый ретривал (fast ANN + slow cross-encoder) в RAG
401. Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism
426. Что такое 3D parallelism (data + tensor + pipeline)
431. Почему LLM inference memory-bound, а не compute-bound
434. Как работает grouped-query attention (GQA) и как trade-off speedquality
437. Почему decode stage плохо batchится
440. Как работает speculative decoding Как выбрать draft модель
442. Что такое prefix caching и когда он эффективен
444. Почему 4-bit inference иногда медленнее 8-bit
453. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
458. Что такое FP8 инференс на H100 (Transformer Engine)
460. Как работает tensor parallelism с FP8 в vLLM
468. Почему small batch size (32) ухудшает training стабильность
472. Почему gradient accumulation эквивалентен большому batch с точки зрения оптимизации
480. Как работает selective activation recomputation
485. Как вы дебажите training instability (loss spikes, divergence)
504. Как вы оцениваете cost-effectiveness LLM-пайплайна
519. Как вы делаете backfill эмбеддингов при смене embedding модели
640. Как работает Multi-query attention (MQA) для long context

batch size

batch size

Определение

Где встречается

Навигация

batch size

batch size

Определение

Где встречается

Навигация