Knowledge Portal

aivaro.ru

  • Оглавление
  • Вопросы
  • Практика
  • Вики
  • Тесты
  • Поиск
✈Telegram @AetSeidhe
RUEN中文
…
Оглавление/Вики/Compute costs

Compute costs

Compute costs

Определение

Затраты на аренду GPU/TPU для self-hosted моделей; зависят от размера модели, пропускной способности и выбранного тарифа (reserved, spot, on-demand).

Где встречается

  • 139. Как вы оцениваете cost-effectiveness LLM-пайплайна

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминinferencemlops

Ссылки

  • Как вы оцениваете cost-effectiveness LLM-пайплайна?

Обратные ссылки (31)

  • GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен?
  • Индекс терминов
  • Как LLM используются для code generation с формальной верификацией (Dafny, Lean)?
  • Как language representation связан с тест-тайм компьютингом?
  • Как вы генерируете синтетический датасет для instruction tuning? Self-instruct, Evol-Instruct?
  • Как вы оцениваете cost-effectiveness LLM-пайплайна?
  • Как вы проектируете API для внешних систем, использующих вашу LLM?
  • Как детектировать «объяснительно-решенческую декомпозицию»?
  • Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)?
  • Как работает Q-Former в BLIP-2 и зачем он нужен?
  • Как работает RAPTOR (иерархическое суммирование для длинного контекста)?
  • Как работает adversarial example для embedding моделей (атака на retrieval)?
  • Как работает model stealing attack и как защититься?
  • Как работает model watermarking для LLM (идентификация модели-источника)?
  • Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO?
  • Как работает нормализация перед attention (pre-norm) vs после (post-norm)?
  • Как работает эмбеддинг слой и почему его размер (embedding dimension) важен?
  • Какие оптимизаторы (teleprompters) в DSPy вы использовали и когда? BootstrapFewShot, MIPRO, COPRO?
  • Почему LLM inference memory-bound, а не compute-bound?
  • Сколько эпох достаточно для LoRA fine-tuning?
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Рассчитать ROI от fine-tuning
  • Что такое Chain-of-Thought без токенов (latent CoT) и как это реализовано?
  • Что такое DSPy в контексте агентов?
  • Что такое DSPy и какую проблему он решает, которую не решают LangChain или LlamaIndex?
  • Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
  • Что такое KV cache reuse в multi-turn диалогах и как его реализовать?
  • Что такое KV cache reuse в multi-turn диалогах и как его реализовать?
  • Что такое Test-Time Training (TTT) слои и как они работают?
  • Что такое attention sink и почему он возникает в длинных контекстах?
  • Что такое data augmentation для LLM (back-translation, paraphrasing, masking)?
  • Что такое semantic ranking на основе embeddings (вторая стадия после ANN)?