中文翻译暂不可用,显示俄语原文。
BERTscore
BERTscore
Определение
Метрика оценки качества текста, вычисляющая семантическое сходство между ответом и эталоном на уровне токенов с помощью эмбеддингов BERT.
Где встречается
- 29. Как fine-tune модель для следования сложным инструкциям
- 32. Как вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами
- 133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.
- 174. Что такое «многошаговая когерентность» (coherence illusion) в cascading agent systems
- 178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
- 215. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
- 373. Что такое learning-to-rank (LTR) и как он применяется к retrieval для LLM
- 504. Как вы оцениваете cost-effectiveness LLM-пайплайна
- 505. Как вы проверяете, что новая версия модели не сломала старые кейсы
- 534. Как вы делаете data quality для синтетических датасетов
- 682. Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)
- 797. Как тестировать промпты (prompt regression testing)
- 890. Как тестировать robustness LLM к adversarial inputs
- 800+ вопросов
- 69. Реализовать deliberate decoding
- 133. Реализовать cost-aware routing
- 169. Реализовать rollback промпта
- 220. Настроить wave decoding для коротких ответов
- 254. Реализовать SLO для RAG