Contents
Questions
Practice
Wiki
Community materials
Tests
Search

✈Telegram @ai_varo

…

Contents/Wiki/Calibration

English translation is not available yet. Showing Russian content.

Calibration

Calibration

Определение

Процесс приведения предсказанных вероятностей модели в соответствие с истинной частотой событий, а также настройка LLM-судьи для приближения его оценок к человеческим.

Где встречается

132. Как вы калибруете LLM-судью под человеческие оценки
291. Как вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)
294. Как вы калибруете вероятности LLM для classification задач
343. Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)
348. Что такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)
375. Как вы калибруете retrieval confidence для threshold-based filtering
397. Как вы делаете агента, который может «просить помощи» у другого агента или человека
458. Что такое FP8 инференс на H100 (Transformer Engine)
486. Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.
487. Что такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)
493. Что такое Positional bias в LLM-as-Judge и как его исправить
495. Что такое pairwise comparison vs scalar rating Когда что использовать
496. Что такое reward correlation и как ее измерять
498. Что такое meta-evaluation бенчмарков (оценка оценки)
507. Что такое calibration в контексте reward model для RLHF
689. Как вы проектируете dynamic benchmark (меняющийся со временем)
690. Как вы измеряете diversity синтетического датасета
759. Какие книги или ресурсы вы рекомендуете по Harness Engineering
870. Как работает LLM-as-judge и почему он biased
872. Что такое calibration для LLM и как её измерять (ECE)
800+ вопросов
85. Спроектировать escalation system
88. Реализовать hallucination indicator
90. Реализовать user trust метрику
277. Реализовать LLM-as-Judge с калибровкой

Навигация

Индекс терминов
Индекс разборов
Оглавление