中文翻译暂不可用,显示俄语原文。
inference
inference
Определение
Скорость генерации ответа; fine-tuning обычно быстрее, RAG медленнее из-за retrieval.
Где встречается
- 78. Какие LLM для русского языка вы используете
- 151. Что такое тест-тайм компьютинг (Test-Time Compute) и чем он отличается от обычного инференса
- 430. Как вы делаете canary analysis для новой LLM модели
- 475. Почему tokenizer влияет на стоимость training
- 709. NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving
- 718. Что такое Test-Time Training (TTT) слои и как они работают
- Практика
- 800+ вопросов
- 46. Настроить cross-encoder reranking
- 51. Развернуть Mamba-2 локально
- 52. Настроить RWKV для инференса
- 67. Реализовать latent reasoning (∇-Reasoner)
- 75. Рассчитать ROI для fine-tuning
- 135. Рассчитать ROI от fine-tuning
- 192. Настроить autoscaling для LLM сервера