Mistral
Mistral
Определение
Семейство языковых моделей, использующих RMSNorm вместо LayerNorm и sliding window attention с окном 4096 токенов для эффективной обработки длинных контекстов.
Где встречается
- 37. Как вы избегаете переобучения при fine-tuning на маленьком датасете
- 70. Как вы снижаете стоимость LLM в production на 50%+
- 78. Какие LLM для русского языка вы используете
- 83. Как спроектировать систему, где LLM должна работать с конфиденциальными данными (медицина, финансы)
- 277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
- 281. Что такое sliding window attention и зачем он в Mistral
- 364. Как вы строите real-time voice agent с latency 500ms
- 629. Как работает sliding window attention в Mistral и Longformer
- 631. Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)
- 641. Что такое grouped-query attention (GQA) как компромисс для long context
- 654. Как работает LayerNorm и RMSNorm В чем разница и почему RMSNorm быстрее
- 697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)
- 800+ вопросов
- 102. Настроить Guardrails на NeMo
- 135. Рассчитать ROI от fine-tuning
- 210. Сравнить GPTQ vs AWQ на reasoning задачах
- 224. vLLM кластер на 4 GPU
- 236. RAG с оценкой faithfulness
- 279. Настроить adversarial evaluation для RAG