ROUGE

Определение

Набор метрик для автоматической оценки суммаризации и генерации текста, основанный на сравнении n-граммов (полнота) между эталоном и гипотезой.

Где встречается

24. Какой размер датасета нужен для fine-tuning
25. Как вы оцениваете качество после fine-tuning
29. Как fine-tune модель для следования сложным инструкциям
32. Как вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами
94. Как вы проектируете промпты, которые работают с разными моделями
133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.
138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
140. Как вы проверяете, что новая версия модели не сломала старые кейсы
178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
195. Как вы проверяете, что модель действительно использует структуру представления, а не игнорирует ее
261. Как вы управляете качеством разметки (label quality) для DPO датасетов
291. Как вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)
332. Как работает KL penalty в RLHF и как подобрать коэффициент
364. Как вы строите real-time voice agent с latency 500ms
382. Как вы проектируете canary deployment для LLM модели
391. Как вы проектируете агента, который может работать непрерывно (247) без дрейфа поведения
400. Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофиче...
434. Как работает grouped-query attention (GQA) и как trade-off speedquality
450. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
481. Что такое LoRA для training (инференс уже знаем)
489. Что такое reward hacking в RLHF и как его детектировать
494. Что такое synthetic eval collapse и как его предотвратить
501. Что такое Path-level evaluation для Agentic RAG и чем оно лучше token-level
534. Как вы делаете data quality для синтетических датасетов
560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей
596. Как работает model stealing attack (экстракция модели через API)
627. Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)
640. Как работает Multi-query attention (MQA) для long context
682. Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)
699. Как вы оцениваете, сколько синтетических данных нужно для fine-tuning (power analysis)
748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)
783. Как сравнивать cost efficiency разных LLM провайдеров
797. Как тестировать промпты (prompt regression testing)
879. Как делать evaluation для long-context RAG (100k токенов)
800+ вопросов
69. Реализовать deliberate decoding
135. Рассчитать ROI от fine-tuning
154. Протестировать multi-turn диалоги
156. Настроить prompt regression suite
163. Реализовать AB тестирование промптов

ROUGE

ROUGE

Определение

Где встречается

Навигация

ROUGE

ROUGE

Определение

Где встречается

Навигация