OOM
OOM
Определение
Ошибка при недостатке GPU памяти во время инференса или обучения, может привести к падению сервера; предотвращается load shedding и управлением памятью.
Где встречается
- 14. Как вы обрезаете контекст, когда retrieved documents больше контекстного окна LLM
- 61. Как вы разворачиваете LLM в production (self-hosted)
- 62. Какие метрики вы мониторите для LLM в production
- 244. Как вы проектируете backpressure в LLM serving системе
- 416. Как вы делаете load shedding при перегрузке LLM сервера
- 466. Что такое curriculum learning для LLM и как его реализовать
- 475. Почему tokenizer влияет на стоимость training
- 629. Как работает sliding window attention в Mistral и Longformer
- 825. Что такое autoscaling inference и как его настроить
- 846. Как дебажить memory fragmentation в LLM сервере
- 863. Как проектировать Airflow DAG для RAG ingestion
- 800+ вопросов
- 51. Развернуть Mamba-2 локально
- 52. Настроить RWKV для инференса
- 54. Сравнить Hyena vs FlashAttention на 128k
- 59. Сравнить архитектуры на reasoning задачах
- 206. Развернуть vLLM vs TGI, сравнить throughput
- 209. Настроить AWQ quantization для LLM
- 214. Реализовать FP8 инференс на H100
- 215. Настроить expert parallelism для Mixtral
- 223. Fine-tune LoRA для стиля
- 224. vLLM кластер на 4 GPU
- 244. Fine-tune QLoRA на 1 GPU
- 267. Реализовать Evol-Instruct для instruction tuning