English translation is not available yet. Showing Russian content.
Calibration
Calibration
Определение
Процесс приведения предсказанных вероятностей модели в соответствие с истинной частотой событий, а также настройка LLM-судьи для приближения его оценок к человеческим.
Где встречается
- 132. Как вы калибруете LLM-судью под человеческие оценки
- 291. Как вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)
- 294. Как вы калибруете вероятности LLM для classification задач
- 343. Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)
- 348. Что такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)
- 375. Как вы калибруете retrieval confidence для threshold-based filtering
- 397. Как вы делаете агента, который может «просить помощи» у другого агента или человека
- 458. Что такое FP8 инференс на H100 (Transformer Engine)
- 486. Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.
- 487. Что такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)
- 493. Что такое Positional bias в LLM-as-Judge и как его исправить
- 495. Что такое pairwise comparison vs scalar rating Когда что использовать
- 496. Что такое reward correlation и как ее измерять
- 498. Что такое meta-evaluation бенчмарков (оценка оценки)
- 507. Что такое calibration в контексте reward model для RLHF
- 689. Как вы проектируете dynamic benchmark (меняющийся со временем)
- 690. Как вы измеряете diversity синтетического датасета
- 759. Какие книги или ресурсы вы рекомендуете по Harness Engineering
- 870. Как работает LLM-as-judge и почему он biased
- 872. Что такое calibration для LLM и как её измерять (ECE)
- 800+ вопросов
- 85. Спроектировать escalation system
- 88. Реализовать hallucination indicator
- 90. Реализовать user trust метрику
- 277. Реализовать LLM-as-Judge с калибровкой