BLEU

Определение

Метрика оценки качества машинного перевода и генерации текста, основанная на совпадении n-грамм с эталонными ответами. Штрафует за перефразирования и не учитывает смысл.

Где встречается

25. Как вы оцениваете качество после fine-tuning
29. Как fine-tune модель для следования сложным инструкциям
32. Как вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами
34. Какая у вас была самая сложная проблема при fine-tuning и как вы её решили
94. Как вы проектируете промпты, которые работают с разными моделями
133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.
138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
140. Как вы проверяете, что новая версия модели не сломала старые кейсы
161. Как вы измеряете эффективность speculative decoding
178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
195. Как вы проверяете, что модель действительно использует структуру представления, а не игнорирует ее
291. Как вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)
297. Что такое representation engineering (RepE) и зачем он нужен
332. Как работает KL penalty в RLHF и как подобрать коэффициент
364. Как вы строите real-time voice agent с latency 500ms
367. Что такое Q-Former в BLIP-2 и зачем он нужен
382. Как вы проектируете canary deployment для LLM модели
391. Как вы проектируете агента, который может работать непрерывно (247) без дрейфа поведения
400. Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофиче...
434. Как работает grouped-query attention (GQA) и как trade-off speedquality
450. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
484. Что такое ReFT (Representation Fine-Tuning) и когда он лучше LoRA
489. Что такое reward hacking в RLHF и как его детектировать
494. Что такое synthetic eval collapse и как его предотвратить
501. Что такое Path-level evaluation для Agentic RAG и чем оно лучше token-level
534. Как вы делаете data quality для синтетических датасетов
540. Как работает Q-Former в BLIP-2 и зачем он нужен
552. Как вы делаете image captioning для RAG (извлечение описания изображения)
560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей
596. Как работает model stealing attack (экстракция модели через API)
699. Как вы оцениваете, сколько синтетических данных нужно для fine-tuning (power analysis)
748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)
783. Как сравнивать cost efficiency разных LLM провайдеров
797. Как тестировать промпты (prompt regression testing)
Практика
800+ вопросов
56. Реализовать diffusion LLM (PLANNER)
135. Рассчитать ROI от fine-tuning
154. Протестировать multi-turn диалоги
156. Настроить prompt regression suite

BLEU

BLEU

Определение

Где встречается

Навигация

BLEU

BLEU

Определение

Где встречается

Навигация