DeepSeek-R1

Определение

Модель DeepSeek, использующая GRPO для обучения reasoning, показала эффективность с длинными CoT.