Llama
Llama
Определение
Семейство открытых больших языковых моделей от Meta (Llama 1/2/3/3.1) с архитектурой Transformer, использующих RMSNorm и Grouped-Query Attention (GQA); популярны для self-hosting и fine-tuning.
Где встречается
- 5. Как вы оцениваете качество retrieval'а в RAG-системе
- 8. Как вы обрабатываете запросы, на которые нет ответа в документах
- 11. Что такое Hypothetical Document Embeddings (HyDE) и зачем
- 20. Как вы обеспечиваете, что RAG работает с документами на русском и английском одновременно
- 37. Как вы избегаете переобучения при fine-tuning на маленьком датасете
- 70. Как вы снижаете стоимость LLM в production на 50%+
- 78. Какие LLM для русского языка вы используете
- 80. Какие 3 книгикурса вы рекомендуете по production LLM
- 83. Как спроектировать систему, где LLM должна работать с конфиденциальными данными (медицина, финансы)
- 102. Объясните концепцию «сигнатуры» (Signature) в DSPy. Чем она отличается от традиционного промпта
- 141. В чем разница между Naive RAG, Adaptive RAG и Agentic RAG
- 161. Как вы измеряете эффективность speculative decoding
- 187. Как язык промпта (русский vs английский) влияет на схему рассуждения
- 277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
- 279. Что такое SwiGLU и почему он используется вместо ReLU в современных LLM
- 281. Что такое sliding window attention и зачем он в Mistral
- 289. Как работает speculative decoding на уровне логитов, а не токенов
- 295. Что такое logit lens и как он помогает понимать внутренние представления
- 296. Как работает извлечение знаний (knowledge editing) из LLM без переобучения
- 403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
- 466. Что такое curriculum learning для LLM и как его реализовать
- 475. Почему tokenizer влияет на стоимость training
- 482. Как работает QLoRA (Quantized LoRA) для training
- 494. Что такое synthetic eval collapse и как его предотвратить
- 504. Как вы оцениваете cost-effectiveness LLM-пайплайна
- 616. Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)
- 635. Как работает RAPTOR (иерархическое суммирование для длинного контекста)
- 638. Как работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)
- 641. Что такое grouped-query attention (GQA) как компромисс для long context
- 654. Как работает LayerNorm и RMSNorm В чем разница и почему RMSNorm быстрее
- 674. Что такое logit lens (интерпретация скрытых состояний)
- 675. Как работает dropout и зачем он нужен в LLM (regularization)
- 697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)
- 760. Что такое Delegation Engineering и чем он отличается от Harness Engineering
- 772. Что такое «аутсорсинг» задачи другому LLM (с другим API, другой ценой)
- Практика
- 800+ вопросов
- 51. Развернуть Mamba-2 локально
- 57. Настроить recurrent memory для long context
- 81. Спроектировать uncertainty UI