Chain-of-Thought критика
Chain-of-Thought критика
Определение
Метод, при котором LLM пишет объяснение, почему один ответ лучше другого, а затем использует это для генерации пар предпочтений. Применяется в синтетических данных для RLHF.
Метод, при котором LLM пишет объяснение, почему один ответ лучше другого, а затем использует это для генерации пар предпочтений. Применяется в синтетических данных для RLHF.