HellaSwag

Определение

Бенчмарк для оценки способности модели к рассуждению на основе здравого смысла и причинно-следственных связей. Используется для проверки сохранения базовых способностей после fine-tuning.

Где встречается

28. Какие данные нужны для fine-tuning на кастомный стиль общения
337. Как вы проверяете, что RLHF не сломал базовые способности модели
488. Что такое benchmark contamination и как ее детектировать
498. Что такое meta-evaluation бенчмарков (оценка оценки)
655. Что такое SwiGLU и почему он лучше ReLU в LLM
688. Что такое synthetic data collapse (когда синтетические данные деградируют со временем)
800+ вопросов

HellaSwag

HellaSwag

Определение

Где встречается

Навигация