Llama

Определение

Семейство открытых больших языковых моделей от Meta (Llama 1/2/3/3.1) с архитектурой Transformer, использующих RMSNorm и Grouped-Query Attention (GQA); популярны для self-hosting и fine-tuning.

Где встречается

5. Как вы оцениваете качество retrieval'а в RAG-системе
8. Как вы обрабатываете запросы, на которые нет ответа в документах
11. Что такое Hypothetical Document Embeddings (HyDE) и зачем
20. Как вы обеспечиваете, что RAG работает с документами на русском и английском одновременно
37. Как вы избегаете переобучения при fine-tuning на маленьком датасете
70. Как вы снижаете стоимость LLM в production на 50%+
78. Какие LLM для русского языка вы используете
80. Какие 3 книгикурса вы рекомендуете по production LLM
83. Как спроектировать систему, где LLM должна работать с конфиденциальными данными (медицина, финансы)
102. Объясните концепцию «сигнатуры» (Signature) в DSPy. Чем она отличается от традиционного промпта
141. В чем разница между Naive RAG, Adaptive RAG и Agentic RAG
161. Как вы измеряете эффективность speculative decoding
187. Как язык промпта (русский vs английский) влияет на схему рассуждения
277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
279. Что такое SwiGLU и почему он используется вместо ReLU в современных LLM
281. Что такое sliding window attention и зачем он в Mistral
289. Как работает speculative decoding на уровне логитов, а не токенов
295. Что такое logit lens и как он помогает понимать внутренние представления
296. Как работает извлечение знаний (knowledge editing) из LLM без переобучения
403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
466. Что такое curriculum learning для LLM и как его реализовать
475. Почему tokenizer влияет на стоимость training
482. Как работает QLoRA (Quantized LoRA) для training
494. Что такое synthetic eval collapse и как его предотвратить
504. Как вы оцениваете cost-effectiveness LLM-пайплайна
616. Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)
635. Как работает RAPTOR (иерархическое суммирование для длинного контекста)
638. Как работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)
641. Что такое grouped-query attention (GQA) как компромисс для long context
654. Как работает LayerNorm и RMSNorm В чем разница и почему RMSNorm быстрее
674. Что такое logit lens (интерпретация скрытых состояний)
675. Как работает dropout и зачем он нужен в LLM (regularization)
697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)
760. Что такое Delegation Engineering и чем он отличается от Harness Engineering
772. Что такое «аутсорсинг» задачи другому LLM (с другим API, другой ценой)
Практика
800+ вопросов
51. Развернуть Mamba-2 локально
57. Настроить recurrent memory для long context
81. Спроектировать uncertainty UI

Llama

Llama

Определение

Где встречается

Навигация

Llama

Llama

Определение

Где встречается

Навигация