中文翻译暂不可用,显示俄语原文。

Chain-of-Thought критика

Chain-of-Thought критика

Определение

Метод, при котором LLM пишет объяснение, почему один ответ лучше другого, а затем использует это для генерации пар предпочтений. Применяется в синтетических данных для RLHF.

Где встречается

Навигация