hallucination

Определение

Ошибка генерации LLM, при которой модель выдает не соответствующие действительности утверждения; ключевая проблема в RAG и мультимодальных системах.

Где встречается

5. Как вы оцениваете качество retrieval'а в RAG-системе
8. Как вы обрабатываете запросы, на которые нет ответа в документах
11. Что такое Hypothetical Document Embeddings (HyDE) и зачем
16. Как вы оцениваете качество генерации в RAG. Назовите 3 ключевые метрики.
21. Когда вы выбираете fine-tuning вместо RAG, а когда — наоборот
71. Как вы тестируете RAG-систему на новых документах без реальных пользователей
72. OpenAI vs Антропик vs Groq vs Self-hosted — что выбираете
96. Как вы предотвращаете галлюцинации в production RAG системе
134. Как вы оцениваете faithfulness RAG-ответа в production автоматически
139. Как вы оцениваете cost-effectiveness LLM-пайплайна
140. Как вы проверяете, что новая версия модели не сломала старые кейсы
141. В чем разница между Naive RAG, Adaptive RAG и Agentic RAG
176. Какие инструменты для агентской эвалюации вы используете
184. Почему естественный язык не подходит для сложного рассуждения
186. Что такое «shaping schema through language representation»
187. Как язык промпта (русский vs английский) влияет на схему рассуждения
198. Какие ограничения у language representation design
292. Как работает temperature sampling и как он влияет на качество при разных значениях
293. Что такое Top-p (nucleus) sampling и как он сочетается с temperature
375. Как вы калибруете retrieval confidence для threshold-based filtering
413. Что такое sidecar pattern для LLM observability и как его реализовать
481. Что такое LoRA для training (инференс уже знаем)
492. Как вы измеряете inter-rater reliability для human evaluation
505. Как вы проверяете, что новая версия модели не сломала старые кейсы
534. Как вы делаете data quality для синтетических датасетов
552. Как вы делаете image captioning для RAG (извлечение описания изображения)
634. Что такое lost in the middle и как это связано с attention sink
644. Как вы оцениваете faithfulness ответа на длинном контексте (когда много информации)
682. Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)
683. Что такое data augmentation для LLM (back-translation, paraphrasing, masking)
685. Как вы детектируете и удаляете низкокачественные примеры из синтетического датасета
699. Как вы оцениваете, сколько синтетических данных нужно для fine-tuning (power analysis)
739. Как изменилась роль инженера с приходом Harness Engineering
777. Что такое «cost per good answer» и как его измерять
778. Как проектировать cost-aware routing (дешёвая модель для простых запросов, дорогая — для сложных)
779. Что такое «token budget» для агента и как его выставлять
798. Как тестировать промпты на регрессии (prompt regression suite)
805. Что такое «prompt linting» (статический анализ промптов)
870. Как работает LLM-as-judge и почему он biased
878. Как измерять faithfulness для long-form ответов (1000+ токенов)

hallucination

hallucination

Определение

Где встречается

Навигация

hallucination

hallucination

Определение

Где встречается

Навигация