OOM

Определение

Ошибка при недостатке GPU памяти во время инференса или обучения, может привести к падению сервера; предотвращается load shedding и управлением памятью.

Где встречается

14. Как вы обрезаете контекст, когда retrieved documents больше контекстного окна LLM
61. Как вы разворачиваете LLM в production (self-hosted)
62. Какие метрики вы мониторите для LLM в production
244. Как вы проектируете backpressure в LLM serving системе
416. Как вы делаете load shedding при перегрузке LLM сервера
466. Что такое curriculum learning для LLM и как его реализовать
475. Почему tokenizer влияет на стоимость training
629. Как работает sliding window attention в Mistral и Longformer
825. Что такое autoscaling inference и как его настроить
846. Как дебажить memory fragmentation в LLM сервере
863. Как проектировать Airflow DAG для RAG ingestion
800+ вопросов
51. Развернуть Mamba-2 локально
52. Настроить RWKV для инференса
54. Сравнить Hyena vs FlashAttention на 128k
59. Сравнить архитектуры на reasoning задачах
206. Развернуть vLLM vs TGI, сравнить throughput
209. Настроить AWQ quantization для LLM
214. Реализовать FP8 инференс на H100
215. Настроить expert parallelism для Mixtral
223. Fine-tune LoRA для стиля
224. vLLM кластер на 4 GPU
244. Fine-tune QLoRA на 1 GPU
267. Реализовать Evol-Instruct для instruction tuning

OOM

OOM

Определение

Где встречается

Навигация