Knowledge Portal

aivaro.ru

  • Contents
  • Questions
  • Practice
  • Wiki
  • Tests
  • Search
✈Telegram @AetSeidhe
RUEN中文
…
Contents/Wiki/model

English translation is not available yet. Showing Russian content.

model

model

Определение

Используемая LLM, например GPT или LLaMA, которая обрабатывает запросы и генерирует ответы.

Где встречается

  • 800+ вопросов

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминinference

Обратные ссылки (100)

  • CrewAI vs AutoGen vs LangGraph — сравнение?
  • GGUF vs GPTQ vs AWQ — сравнение форматов квантизации для локального запуска?
  • GGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?
  • GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен?
  • Hyena: как заменить attention на свертки, сохранив качество?
  • LangGraph vs CrewAI vs AutoGen — что вы выберете и для каких задач?
  • NVIDIA Grace Hopper: CPU-GPU unified memory, как это меняет LLM serving?
  • OpenAI vs Anthropic vs Groq vs Self-hosted — что выбираете?
  • QLoRA vs LoRA — в чем разница и когда QLoRA лучше?
  • Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса?
  • TensorRT-LLM vs vLLM — сравнение для production deployment?
  • ZeRO-1 vs ZeRO-2 vs ZeRO-3: что и когда использовать?
  • Альтернативы LLM-as-Judge — назовите 3 и их ограничения?
  • Бенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
  • В чем разница между Chain-of-Thought (CoT) и Latent Reasoning?
  • В чем разница между Workflow и Guidance в теории harness-engineering?
  • В чем разница между prefill и decode stage в LLM инференсе?
  • Зачем нужен embedding-as-a-service и когда вы его используете?
  • Индекс терминов
  • Как Harness Engineering помогает решить проблему "гарантий исполнения" в критических миссиях (mission-critical)?
  • Как Harness Engineering связан с наблюдаемостью (OpenTelemetry, LangSmith, трассировка)?
  • Как LLM используются для code generation с формальной верификацией (Dafny, Lean)?
  • Как LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?
  • Как PCIe bottleneck проявляется в multi-GPU инференсе?
  • Как fine-tune модель для следования сложным инструкциям?
  • Как speculative decoding взаимодействует с KV cache?
  • Как speculative decoding ускоряет inference? (детально)
  • Как бы вы спроектировали RAG-систему для 10 000 документов с разной структурой (PDF, Word, сканы, HTML, Excel)?
  • Как вы fine-tune embedding модель под свой домен (а не используете готовую)?
  • Как вы fine-tune модель для функции "вызов внешнего API"?
  • Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику?
  • Как вы выбираете между online и batch инференсом для LLM?
  • Как вы выбираете между online и batch инференсом для LLM?
  • Как вы выбираете между увеличением тест-тайм компьютинга и использованием большей модели?
  • Как вы генерируете hard negative примеры для retrieval обучения?
  • Как вы генерируете synthetic данные для instruction tuning?
  • Как вы генерируете synthetic данные для instruction tuning?
  • Как вы генерируете синтетический датасет для instruction tuning? Self-instruct, Evol-Instruct?
  • Как вы дебажите training instability (loss spikes, divergence)?
  • Как вы дебажите агента, который делает неправильные действия?
  • Как вы дебажите медленную меж-GPU коммуникацию в multi-node инференсе?
  • Как вы дебажите проблему "LLM не следовала системному промпту"?
  • Как вы делаете A/B тестирование двух моделей в production?
  • Как вы делаете RAG для изображений (image retrieval without text)?
  • Как вы делаете active learning loop для улучшения retrieval?
  • Как вы делаете agent с human values alignment (Constitutional AI для агентов)?
  • Как вы делаете backfill эмбеддингов при смене embedding модели?
  • Как вы делаете backfill эмбеддингов при смене embedding модели?
  • Как вы делаете blue-green deployment для RAG системы с zero downtime?
  • Как вы делаете blue-green deployment для RAG системы с zero downtime?
  • Как вы делаете canary analysis для новой LLM модели?
  • Как вы делаете data quality для синтетических датасетов?
  • Как вы делаете extraction таблиц из PDF для RAG?
  • Как вы делаете health check для LLM сервера с учетом модели (не только процесс)?
  • Как вы делаете health check для LLM сервера с учетом модели (не только процесс)?
  • Как вы делаете hybrid search (vector + keyword) в production на 10M документов?
  • Как вы делаете image captioning для RAG (извлечение описания изображения)?
  • Как вы делаете image retrieval по тексту с высокой точностью?
  • Как вы делаете image retrieval с фильтрацией по метаданным (дата, местоположение, камера)?
  • Как вы делаете load shedding при перегрузке LLM сервера?
  • Как вы делаете load shedding при перегрузке LLM сервера?
  • Как вы делаете load testing для LLM endpoint? Какие метрики ключевые?
  • Как вы делаете long context для code generation (модель должна видеть весь репозиторий)?
  • Как вы делаете model selection для long context (какая модель лучше держит 100k+)?
  • Как вы делаете online RL для агентов (self-improvement loops)?
  • Как вы делаете streaming в production с учетом network limitations?
  • Как вы делаете synthetic data generation для редких классов в датасете?
  • Как вы делаете synthetic data generation для редких классов в датасете?
  • Как вы делаете synthetic data для multi-turn диалогов (агентов)?
  • Как вы делаете synthetic data для редких языков (не английский)?
  • Как вы делаете synthetic eval (генерация тестовых вопросов по документам)?
  • Как вы делаете агента, который может «просить помощи» у другого агента или человека?
  • Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)?
  • Как вы деплоите policy (RLHF модель) в production с online feedback loop?
  • Как вы деплоите speculative decoding в production?
  • Как вы детектируете data contamination в evaluation датасетах?
  • Как вы детектируете и удаляете низкокачественные примеры из синтетического датасета?
  • Как вы детектируете и фиксите attention sinks в длинных контекстах?
  • Как вы документируете RAG-систему для команды?
  • Как вы защищаете LLM от prompt injection через изображения (VL-модели)?
  • Как вы защищаете LLM от градиентных атак (white-box jailbreak)?
  • Как вы защищаете LLM от градиентных атак (white-box jailbreak)?
  • Как вы защищаете RAG от data poisoning через неявные инструкции (subtle injections)?
  • Как вы защищаете RAG от document injection (вредоносные документы в базе знаний)?
  • Как вы защищаете multi-agent систему от вредоносного агента?
  • Как вы защищаете агента от tool injection (вредоносный API ответ)?
  • Как вы избегаете переобучения при fine-tuning на маленьком датасете?
  • Как вы извлекаете *логические отношения* из диаграммы, а не просто текст?
  • Как вы измеряете TTFT (Time To First Token) и TPOT (Time Per Output Token)?
  • Как вы измеряете diversity синтетического датасета?
  • Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)?
  • Как вы измеряете reasoning degradation с ростом контекста? (curse of length)
  • Как вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)?
  • Как вы измеряете дрейф модели (model drift) для LLM?
  • Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)?
  • Как вы измеряете стоимость (токены) агентской системы?
  • Как вы измеряете эффективность speculative decoding?
  • Как вы индексируете видео-контент в RAG-системе?
  • Как вы индексируете видео-контент в RAG-системе?
  • Как вы калибруете LLM-судью под человеческие оценки?