中文翻译暂不可用,显示俄语原文。
Chain-of-Thought критика
Chain-of-Thought критика
Определение
Метод, при котором LLM пишет объяснение, почему один ответ лучше другого, а затем использует это для генерации пар предпочтений. Применяется в синтетических данных для RLHF.