HellaSwag
HellaSwag
Определение
Бенчмарк для оценки способности модели к рассуждению на основе здравого смысла и причинно-следственных связей. Используется для проверки сохранения базовых способностей после fine-tuning.
Где встречается
- 28. Какие данные нужны для fine-tuning на кастомный стиль общения
- 337. Как вы проверяете, что RLHF не сломал базовые способности модели
- 488. Что такое benchmark contamination и как ее детектировать
- 498. Что такое meta-evaluation бенчмарков (оценка оценки)
- 655. Что такое SwiGLU и почему он лучше ReLU в LLM
- 688. Что такое synthetic data collapse (когда синтетические данные деградируют со временем)
- 800+ вопросов