中文翻译暂不可用,显示俄语原文。
hallucination
hallucination
Определение
Ошибка генерации LLM, при которой модель выдает не соответствующие действительности утверждения; ключевая проблема в RAG и мультимодальных системах.
Где встречается
- 5. Как вы оцениваете качество retrieval'а в RAG-системе
- 8. Как вы обрабатываете запросы, на которые нет ответа в документах
- 11. Что такое Hypothetical Document Embeddings (HyDE) и зачем
- 16. Как вы оцениваете качество генерации в RAG. Назовите 3 ключевые метрики.
- 21. Когда вы выбираете fine-tuning вместо RAG, а когда — наоборот
- 71. Как вы тестируете RAG-систему на новых документах без реальных пользователей
- 72. OpenAI vs Антропик vs Groq vs Self-hosted — что выбираете
- 96. Как вы предотвращаете галлюцинации в production RAG системе
- 134. Как вы оцениваете faithfulness RAG-ответа в production автоматически
- 139. Как вы оцениваете cost-effectiveness LLM-пайплайна
- 140. Как вы проверяете, что новая версия модели не сломала старые кейсы
- 141. В чем разница между Naive RAG, Adaptive RAG и Agentic RAG
- 176. Какие инструменты для агентской эвалюации вы используете
- 184. Почему естественный язык не подходит для сложного рассуждения
- 186. Что такое «shaping schema through language representation»
- 187. Как язык промпта (русский vs английский) влияет на схему рассуждения
- 198. Какие ограничения у language representation design
- 292. Как работает temperature sampling и как он влияет на качество при разных значениях
- 293. Что такое Top-p (nucleus) sampling и как он сочетается с temperature
- 375. Как вы калибруете retrieval confidence для threshold-based filtering
- 413. Что такое sidecar pattern для LLM observability и как его реализовать
- 481. Что такое LoRA для training (инференс уже знаем)
- 492. Как вы измеряете inter-rater reliability для human evaluation
- 505. Как вы проверяете, что новая версия модели не сломала старые кейсы
- 534. Как вы делаете data quality для синтетических датасетов
- 552. Как вы делаете image captioning для RAG (извлечение описания изображения)
- 634. Что такое lost in the middle и как это связано с attention sink
- 644. Как вы оцениваете faithfulness ответа на длинном контексте (когда много информации)
- 682. Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)
- 683. Что такое data augmentation для LLM (back-translation, paraphrasing, masking)
- 685. Как вы детектируете и удаляете низкокачественные примеры из синтетического датасета
- 699. Как вы оцениваете, сколько синтетических данных нужно для fine-tuning (power analysis)
- 739. Как изменилась роль инженера с приходом Harness Engineering
- 777. Что такое «cost per good answer» и как его измерять
- 778. Как проектировать cost-aware routing (дешёвая модель для простых запросов, дорогая — для сложных)
- 779. Что такое «token budget» для агента и как его выставлять
- 798. Как тестировать промпты на регрессии (prompt regression suite)
- 805. Что такое «prompt linting» (статический анализ промптов)
- 870. Как работает LLM-as-judge и почему он biased
- 878. Как измерять faithfulness для long-form ответов (1000+ токенов)