English translation is not available yet. Showing Russian content.
ROUGE
ROUGE
Определение
Набор метрик для автоматической оценки суммаризации и генерации текста, основанный на сравнении n-граммов (полнота) между эталоном и гипотезой.
Где встречается
- 24. Какой размер датасета нужен для fine-tuning
- 25. Как вы оцениваете качество после fine-tuning
- 29. Как fine-tune модель для следования сложным инструкциям
- 32. Как вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами
- 94. Как вы проектируете промпты, которые работают с разными моделями
- 133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.
- 138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
- 140. Как вы проверяете, что новая версия модели не сломала старые кейсы
- 178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
- 195. Как вы проверяете, что модель действительно использует структуру представления, а не игнорирует ее
- 261. Как вы управляете качеством разметки (label quality) для DPO датасетов
- 291. Как вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)
- 332. Как работает KL penalty в RLHF и как подобрать коэффициент
- 364. Как вы строите real-time voice agent с latency 500ms
- 382. Как вы проектируете canary deployment для LLM модели
- 391. Как вы проектируете агента, который может работать непрерывно (247) без дрейфа поведения
- 400. Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофиче...
- 434. Как работает grouped-query attention (GQA) и как trade-off speedquality
- 450. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
- 481. Что такое LoRA для training (инференс уже знаем)
- 489. Что такое reward hacking в RLHF и как его детектировать
- 494. Что такое synthetic eval collapse и как его предотвратить
- 501. Что такое Path-level evaluation для Agentic RAG и чем оно лучше token-level
- 534. Как вы делаете data quality для синтетических датасетов
- 560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей
- 596. Как работает model stealing attack (экстракция модели через API)
- 627. Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)
- 640. Как работает Multi-query attention (MQA) для long context
- 682. Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)
- 699. Как вы оцениваете, сколько синтетических данных нужно для fine-tuning (power analysis)
- 748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)
- 783. Как сравнивать cost efficiency разных LLM провайдеров
- 797. Как тестировать промпты (prompt regression testing)
- 879. Как делать evaluation для long-context RAG (100k токенов)
- 800+ вопросов
- 69. Реализовать deliberate decoding
- 135. Рассчитать ROI от fine-tuning
- 154. Протестировать multi-turn диалоги
- 156. Настроить prompt regression suite
- 163. Реализовать AB тестирование промптов