BLEU
BLEU
Определение
Метрика оценки качества машинного перевода и генерации текста, основанная на совпадении n-грамм с эталонными ответами. Штрафует за перефразирования и не учитывает смысл.
Где встречается
- 25. Как вы оцениваете качество после fine-tuning
- 29. Как fine-tune модель для следования сложным инструкциям
- 32. Как вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами
- 34. Какая у вас была самая сложная проблема при fine-tuning и как вы её решили
- 94. Как вы проектируете промпты, которые работают с разными моделями
- 133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.
- 138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
- 140. Как вы проверяете, что новая версия модели не сломала старые кейсы
- 161. Как вы измеряете эффективность speculative decoding
- 178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
- 195. Как вы проверяете, что модель действительно использует структуру представления, а не игнорирует ее
- 291. Как вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)
- 297. Что такое representation engineering (RepE) и зачем он нужен
- 332. Как работает KL penalty в RLHF и как подобрать коэффициент
- 364. Как вы строите real-time voice agent с latency 500ms
- 367. Что такое Q-Former в BLIP-2 и зачем он нужен
- 382. Как вы проектируете canary deployment для LLM модели
- 391. Как вы проектируете агента, который может работать непрерывно (247) без дрейфа поведения
- 400. Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофиче...
- 434. Как работает grouped-query attention (GQA) и как trade-off speedquality
- 450. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
- 484. Что такое ReFT (Representation Fine-Tuning) и когда он лучше LoRA
- 489. Что такое reward hacking в RLHF и как его детектировать
- 494. Что такое synthetic eval collapse и как его предотвратить
- 501. Что такое Path-level evaluation для Agentic RAG и чем оно лучше token-level
- 534. Как вы делаете data quality для синтетических датасетов
- 540. Как работает Q-Former в BLIP-2 и зачем он нужен
- 552. Как вы делаете image captioning для RAG (извлечение описания изображения)
- 560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей
- 596. Как работает model stealing attack (экстракция модели через API)
- 699. Как вы оцениваете, сколько синтетических данных нужно для fine-tuning (power analysis)
- 748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)
- 783. Как сравнивать cost efficiency разных LLM провайдеров
- 797. Как тестировать промпты (prompt regression testing)
- Практика
- 800+ вопросов
- 56. Реализовать diffusion LLM (PLANNER)
- 135. Рассчитать ROI от fine-tuning
- 154. Протестировать multi-turn диалоги
- 156. Настроить prompt regression suite